鬧玩呢!首屆大模型對抗賽,DeepSeek、Kimi第一輪被淘汰了
在玩游戲方面,到底哪個模型最厲害?為了回答這個問題,谷歌近日發起了首屆大模型國際象棋對抗賽。
這場比賽為期三天,參賽選手包括:
- o4-mini(OpenAI)
- DeepSeek-R1(DeepSeek)
- Kimi K2 Instruct(月之暗面)
- o3(OpenAI)
- Gemini 2.5 Pro(谷歌)
- Claude Opus 4(Anthropic)
- Grok 4(xAI)
- Gemini 2.5 Flash(谷歌)
剛剛,我們拿到了第一輪比賽的結果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級半決賽。
以下是模型對陣圖。

這個比賽是在一個名叫「Kaggle Game Arena」的平臺上進行的。這是 Kaggle 公司的一個新項目,旨在跳出平時的基準測試框架,探索像 Gemini、DeepSeek 等 LLM 在動態和競爭環境中表現如何。
在昨天的報道中,我們詳細描述了這場比賽的規則,比如不允許模型調用 Stockfish 等國際象棋引擎。
以下是對戰的詳細信息:
Kimi k2 對陣 o3:0-4
Kimi k2 與 o3 的對局較早結束,四局比賽都在八步棋內完成。由于 Kimi k2 連續四次未能找到合法著法而被判負,o3 獲得了全勝。
不過需要說明的是,與 o3 對戰的 Kimi K2 Instruct 為非推理模型,打不過 o3 也在預料之中。
雖然 Kimi k2 未能獲勝,但這場比賽也為我們提供了有價值的觀察。從 Kimi k2 的走棋注釋來看,它在開局階段能夠遵循棋譜理論行棋。然而,一旦脫離了熟悉的開局理論,技術問題就開始顯現 —— 而對 Kimi k2 來說,這個轉折點來得較早。
Kimi k2 遇到困難的具體原因還需要進一步分析。在某些時候,它能清楚看到棋子的位置,卻似乎忘記了棋子的走法。

在這一次對局中,Kimi k2 完整識別了棋盤局勢,卻依然無法給出合法著法,似乎對棋子的走法規則出現了記憶混亂。
在其他對局中,它在局面識別上也存在一些技術問題。

憑借這場勝利,o3 順利晉級半決賽,與 o4 mini 對戰。
DeepSeek R1 對陣 o4-mini:0-4
OpenAI 的 o4-mini 與 DeepSeek R1 之間的對局呈現出了獨特的特點。如果單獨觀察每局比賽的前幾步棋,你可能會以為這是兩位高手在過招。然而對局進行到某個階段后,棋局質量就會突然斷崖式下跌。

這一現象在整場比賽中反復出現:幾步不錯的開局之后,會出現判斷偏差和一系列失誤。
盡管如此,o4-mini 在這場比賽中成功實現了兩次將軍 —— 這是一個值得注意的成就,考慮到對 AI 系統來說,準確把握整個棋盤狀態本身就具有相當的挑戰性。
Gemini 2.5 Pro 對陣 Claude 4 Opus:4-0
Gemini 2.5 Pro 與 Claude 4 Opus 的對局是本次比賽中唯一一個通過「將殺」獲勝的場次多于因違規行棋告負的場次的比賽。不過,目前尚不清楚 Gemini 2.5 Pro 的真實棋力究竟如何,也不確定其勝利在多大程度上得益于 Claude 4 Opus 的失誤表現。
這場比賽第四局出現了一個耐人尋味的局面:Gemini 2.5 Pro 當時擁有 32 分的子力優勢,棋盤上甚至有兩個后。然而盡管火力全開,它在完成將殺的過程中仍然出現了送子的情況。

但更值得分析的是本場比賽的第一局。前九個回合,雙方 AI 都表現穩健,著法精妙。然而就在此時,執黑的 Claude 4 Opus 做出了一個草率的決定,走 10...g5。這步棋不僅白送一兵,還徹底破壞了己方王城的安全,直接加速了敗局的到來。從雙方 AI 的賽后評注中,我們可以看出一些端倪:

Grok 4 對陣 Gemini 2.5 Flash:4-0
今日表現最為亮眼的當屬 Grok 4。除了以全勝戰績收獲 4 分外,其棋藝水平也堪稱目前最佳。雖然對手 Gemini 2.5 Flash 多次失誤送子確實降低了比賽難度,但與其他 AI 不同的是,Grok 4 展現出了精準捕捉無保護棋子的能力,并能果斷實施打擊。

Grok 4 的出色表現甚至引起了科技界的關注,其創始人埃隆?馬斯克在 X 平臺簡短互動時,再次提及他那個著名觀點 ——「國際象棋太過簡單」。

截至目前,大語言模型在象棋對弈中暴露出三大關鍵短板:全局棋盤視覺化能力不足、棋子間互動關系理解有限,以及由此引發的合法著法執行問題。而 Grok 4 的出色表現證明,它似乎成功突破了這些限制。
這些 AI 模型的優勢與缺陷能否在后續賽事中保持穩定?我們還要看明天的半決賽成績。
文章中提及的棋局在線上國際象棋對弈網站 chess.com 中均有詳細描述,感興趣的讀者可以參見以下鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
國際象棋大師 Levy Rozman 也在最新錄制的視頻中對這場比賽進行了講解。

我們曾在昨天的報道中發起了一個投票,目前已有近 4000 位讀者參與。從目前的數據看,大家此前最看好的是 Gemini 2.5 Pro—— 贏得了超過 37% 的票數。

現在,第一天的比賽結果已經出爐,我們也稍微了解了各個模型的表現,不知道大家的想法有無變化呢?


























