国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

鬧玩呢!首屆大模型對抗賽,DeepSeek、Kimi第一輪被淘汰了

人工智能 新聞
剛剛,我們拿到了第一輪比賽的結果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級半決賽。

在玩游戲方面,到底哪個模型最厲害?為了回答這個問題,谷歌近日發起了首屆大模型國際象棋對抗賽。

這場比賽為期三天,參賽選手包括:  

  • o4-mini(OpenAI)
  • DeepSeek-R1(DeepSeek)
  • Kimi K2 Instruct(月之暗面)
  • o3(OpenAI)
  • Gemini 2.5 Pro(谷歌)
  • Claude Opus 4(Anthropic)
  • Grok 4(xAI)
  • Gemini 2.5 Flash(谷歌)

剛剛,我們拿到了第一輪比賽的結果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級半決賽。

以下是模型對陣圖。

這個比賽是在一個名叫「Kaggle Game Arena」的平臺上進行的。這是 Kaggle 公司的一個新項目,旨在跳出平時的基準測試框架,探索像 Gemini、DeepSeek 等 LLM 在動態和競爭環境中表現如何。

在昨天的報道中,我們詳細描述了這場比賽的規則,比如不允許模型調用 Stockfish 等國際象棋引擎。

以下是對戰的詳細信息:

Kimi k2 對陣 o3:0-4

Kimi k2 與 o3 的對局較早結束,四局比賽都在八步棋內完成。由于 Kimi k2 連續四次未能找到合法著法而被判負,o3 獲得了全勝。 

不過需要說明的是,與 o3 對戰的 Kimi K2 Instruct 為非推理模型,打不過 o3 也在預料之中。

雖然 Kimi k2 未能獲勝,但這場比賽也為我們提供了有價值的觀察。從 Kimi k2 的走棋注釋來看,它在開局階段能夠遵循棋譜理論行棋。然而,一旦脫離了熟悉的開局理論,技術問題就開始顯現 —— 而對 Kimi k2 來說,這個轉折點來得較早。

Kimi k2 遇到困難的具體原因還需要進一步分析。在某些時候,它能清楚看到棋子的位置,卻似乎忘記了棋子的走法。

image.png

在這一次對局中,Kimi k2 完整識別了棋盤局勢,卻依然無法給出合法著法,似乎對棋子的走法規則出現了記憶混亂。

在其他對局中,它在局面識別上也存在一些技術問題。

image.png

憑借這場勝利,o3 順利晉級半決賽,與 o4 mini 對戰。 

DeepSeek R1 對陣 o4-mini:0-4

OpenAI 的 o4-mini 與 DeepSeek R1 之間的對局呈現出了獨特的特點。如果單獨觀察每局比賽的前幾步棋,你可能會以為這是兩位高手在過招。然而對局進行到某個階段后,棋局質量就會突然斷崖式下跌。

image.png

這一現象在整場比賽中反復出現:幾步不錯的開局之后,會出現判斷偏差和一系列失誤。

盡管如此,o4-mini 在這場比賽中成功實現了兩次將軍 —— 這是一個值得注意的成就,考慮到對 AI 系統來說,準確把握整個棋盤狀態本身就具有相當的挑戰性。

Gemini 2.5 Pro 對陣 Claude 4 Opus:4-0

Gemini 2.5 Pro 與 Claude 4 Opus 的對局是本次比賽中唯一一個通過「將殺」獲勝的場次多于因違規行棋告負的場次的比賽。不過,目前尚不清楚 Gemini 2.5 Pro 的真實棋力究竟如何,也不確定其勝利在多大程度上得益于 Claude 4 Opus 的失誤表現。

這場比賽第四局出現了一個耐人尋味的局面:Gemini 2.5 Pro 當時擁有 32 分的子力優勢,棋盤上甚至有兩個后。然而盡管火力全開,它在完成將殺的過程中仍然出現了送子的情況。

image.png

但更值得分析的是本場比賽的第一局。前九個回合,雙方 AI 都表現穩健,著法精妙。然而就在此時,執黑的 Claude 4 Opus 做出了一個草率的決定,走 10...g5。這步棋不僅白送一兵,還徹底破壞了己方王城的安全,直接加速了敗局的到來。從雙方 AI 的賽后評注中,我們可以看出一些端倪:

image.png

Grok 4 對陣 Gemini 2.5 Flash:4-0

今日表現最為亮眼的當屬 Grok 4。除了以全勝戰績收獲 4 分外,其棋藝水平也堪稱目前最佳。雖然對手 Gemini 2.5 Flash 多次失誤送子確實降低了比賽難度,但與其他 AI 不同的是,Grok 4 展現出了精準捕捉無保護棋子的能力,并能果斷實施打擊。

image.png

Grok 4 的出色表現甚至引起了科技界的關注,其創始人埃隆?馬斯克在 X 平臺簡短互動時,再次提及他那個著名觀點 ——「國際象棋太過簡單」。

image.png

截至目前,大語言模型在象棋對弈中暴露出三大關鍵短板:全局棋盤視覺化能力不足、棋子間互動關系理解有限,以及由此引發的合法著法執行問題。而 Grok 4 的出色表現證明,它似乎成功突破了這些限制。

這些 AI 模型的優勢與缺陷能否在后續賽事中保持穩定?我們還要看明天的半決賽成績。

文章中提及的棋局在線上國際象棋對弈網站 chess.com 中均有詳細描述,感興趣的讀者可以參見以下鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

國際象棋大師 Levy Rozman 也在最新錄制的視頻中對這場比賽進行了講解。

我們曾在昨天的報道中發起了一個投票,目前已有近 4000 位讀者參與。從目前的數據看,大家此前最看好的是 Gemini 2.5 Pro—— 贏得了超過 37% 的票數。

e787b0757681e3abee0c74a781f0a6d.jpg

現在,第一天的比賽結果已經出爐,我們也稍微了解了各個模型的表現,不知道大家的想法有無變化呢?  

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-05 15:11:36

AI模型象棋

2010-06-17 15:47:45

世界杯UPS布線

2025-08-07 09:20:00

2012-07-11 16:39:15

飛碟射擊

2017-03-23 13:38:32

2015-05-25 10:05:16

2014-02-21 09:14:34

影子IT云安全

2014-01-09 15:33:40

云計算

2023-04-17 09:00:00

WakeData惟客數據大模型

2025-02-10 09:42:14

2018-07-03 14:45:34

2018-08-06 15:40:13

大數據睿至

2025-06-09 08:30:00

2015-01-21 18:22:31

2010-06-19 15:51:19

通信服務華為

2012-06-20 14:08:27

創業大賽

2017-03-14 14:56:13

XCTFNJCTF線上

2023-08-30 12:03:40

2015-07-13 15:55:26

互聯網
點贊
收藏

51CTO技術棧公眾號

日韩电影在线观看完整免费观看| 久久精品国产999大香线蕉| 日韩欧美a级成人黄色| 97精品国产97久久久久久粉红| 国产视频亚洲视频| 小泽玛利亚视频在线观看| 欧美亚洲韩国| 亚洲色图制服诱惑| 四虎永久免费网站| 99xxxx成人网| 欧美日韩在线第一页| 日韩av电影国产| 欧美人与性动交xxⅹxx| 欧美性极品少妇| 免费女人黄页| 2024国产精品| 久久天天躁狠狠躁老女人| 成人免费性视频| 日韩电影av| 欧美精品在线一区二区| 好紧好硬好湿我太爽了| 99热精品国产| 欧美精品在线视频观看| 久久香蕉综合色| 国产盗摄在线观看| 亚洲国产欧美日韩另类综合| 久操网在线观看| 日本不卡视频一二三区| 国产欧美在线一区二区| 亚洲欧美偷拍自拍| 欧美美女直播网站| 性网站在线播放| 国产精品久久久久久久浪潮网站| 欧美影院久久久| 在线影院福利| 中文字幕精品—区二区四季| 欧美精品一区二区三区三州| 国产成人午夜高潮毛片| 99er在线视频| 成a人片亚洲日本久久| 日韩精品一区在线视频| 国产一区999| 五月天在线免费视频| 国产资源在线一区| 青青草综合视频| 中文字幕亚洲在线观看| 少妇久久久久久| 肉色欧美久久久久久久免费看| 亚洲精品一区二区三区福利| 成人国产在线看| 久久精品国产精品亚洲红杏| 欧美亚洲免费高清在线观看| 久久狠狠婷婷| 亚洲午夜精品久久久中文影院av| 久久九九国产| 亚洲日本精品一区| 国产不卡免费视频| 奇米4444一区二区三区| www国产精品| 91成人免费在线| 在线播放色视频| 欧美视频专区一二在线观看| 三上悠亚在线观看| 久久99国内精品| 51精品在线观看| 欧洲亚洲视频| 国产欧美一区二区三区久久人妖| 日韩在线视频精品| 九九九九精品| 蜜臀va亚洲va欧美va天堂| 九九久久国产精品| 欧美91在线| 成人在线中文字幕| 亚洲美女黄色| 亚洲欧洲一区二区| 免费视频国产一区| 成人国产在线视频| 老司机午夜精品视频在线观看| 日韩一区视频在线| 成人性生交大片免费看96| 国产97人人超碰caoprom| 国产精品国产一区| 欧美不卡在线一区二区三区| 国产成人午夜精品5599| 日本加勒比高清在线| 欧美性猛交xxxx黑人| 污视频网站免费在线观看| 色综合伊人色综合网| 九九久久成人| 麻豆av一区二区| 99视频精品免费视频| 欧美hdfree性xxxx| 亚洲成人网在线观看| 无码国模国产在线观看| 99在线热播| 成人不卡免费av| 欧美视频综合| 亚洲片国产一区一级在线观看| 天天躁日日躁狠狠躁欧美| 国产亚洲一区二区三区在线播放 | 午夜伦全在线观看| 宅男66日本亚洲欧美视频| av一本在线| 日韩在线中文字幕| 欧美日本一区| 欧美在线视频导航| 国产精品综合色区在线观看| 亚洲人成无码网站久久99热国产| 亚洲一区二区三区四区在线| 国产美女一区视频| 国产va免费精品高清在线观看| 日本欧美一区| 国产日韩欧美综合| av在线一区二区三区| 欧洲伦理片一区 二区 三区| 亚洲人成在线观看一区二区| 丝袜综合欧美| 国产精品久久久久9999| 韩国一区二区三区| 亚洲欧美另类图片| 欧美麻豆久久久久久中文 | 一区二区三区四区精品视频| 3d精品h动漫啪啪一区二区| 精品一区在线| 在线免费一区| 亚洲欧美大片| 男人的天堂www| 亚洲天堂免费在线| 激情综合久久| 性欧美18+| 久99九色视频在线观看| 毛片av中文字幕一区二区| 手机福利在线| 隔壁老王国产在线精品| 国产麻豆视频一区二区| 精品176二区| 亚洲iv一区二区三区| 色无极亚洲影院| 久久久亚洲精品无码| 日韩欧美一二三区| 激情视频一区二区三区| 又黄又www的网站| 久久免费观看视频| 国产亚洲精品久| 伊人久久精品| 日产精品久久久久久久蜜臀| 日韩欧美一级二级三级久久久| 欧美黄色大片网站| 蜜臀在线观看| 欧美一区第一页| 国产精品久久久久国产精品日日 | 色综合天天性综合| 久久av综合| 黄色一级影院| 国内精品在线一区| 国产欧美精品一区| 国产毛片视频| 欧美成人免费全部| 99久久国产免费看| 国产一区二区主播在线| 激情六月天婷婷| 在线不卡国产精品| 91亚洲国产成人精品一区二三| 在线观看一区不卡| 午夜视频在线观看精品中文| www.中文字幕在线| 久久91亚洲精品中文字幕奶水| 99久久综合99久久综合网站| 国产成人福利夜色影视| 国模无码视频一区二区三区| 在线日韩精品视频| 国产精品亚洲视频| 先锋影音网一区二区| 手机看片福利日韩| 91黄色免费版| 桃子视频成人app| 国产精品8888| 最近2019免费中文字幕视频三 | 麻豆mv在线看| 高清欧美性猛交xxxx| 欧美激情一区二区三区全黄| 欧美巨大xxxx| 亚洲精品一区视频| 蜜桃成人免费视频| 精品视频在线播放| www.色精品| 亚洲ab电影| 久色视频在线| 亚洲高清在线播放| 久久久精品国产亚洲| 一区二区三区中文字幕| 国产精品大片免费观看| 美女网站视频在线| 日本电影亚洲天堂| 色综合久久久久久久久久久| 日韩在线a电影| 91精品在线免费视频| 日日噜噜夜夜狠狠视频| 久久99精品国产一区二区三区| 亚洲第一精品夜夜躁人人爽|