谷歌約戰,DeepSeek、Kimi都要上,首屆大模型對抗賽明天開戰
看夠了研究者們天天在論文上刷新基準,是時候拉模型出來遛一遛,性能是不是真如傳說中的碾壓全場?
太平洋時間 8 月 5 日至 7 日,一場為期 3 天的 AI 國際象棋比賽讓人無比期待。
開局第一天,就有 8 款前沿 AI 模型展開對決:
參與比賽的模型包括:
- o4-mini(OpenAI)
- DeepSeek-R1(DeepSeek)
- Kimi K2 Instruct(月之暗面)
- o3(OpenAI)
- Gemini 2.5 Pro(谷歌)
- Claude Opus 4(Anthropic)
- Grok 4(xAI)
- Gemini 2.5 Flash(谷歌)

直播地址:https://www.youtube.com/watch?v=En_NJJsbuus
這次參賽方都是 AI 界模型頂流(包括兩款中國的開源模型),對戰雙方的性能也旗鼓相當。
組織方還邀請了世界頂級國際象棋專家擔任解說,可謂是誠意滿滿。
這場比賽主要基于 Kaggle Game Arena,這是谷歌推出的一個全新的、公開的基準測試平臺,在這里,AI 模型可以在策略游戲(如國際象棋和其他游戲中)中展開正面交鋒,一決高下。
為了確保透明性,游戲執行框架以及游戲環境本身都將開源。最終排名將采用嚴格的全員對抗賽制(all-play-all)確定,每對模型進行大量對戰來確保統計結果的可靠性。
諾獎得主、Google DeepMind 聯合創始人兼首席執行官 Demis Hassabis 激動地表示:「游戲一直是檢驗 AI 能力的重要試煉場(包括我們在 AlphaGo 和 AlphaZero 上的研究),而如今我們對這個基準測試平臺所能推動的進步感到無比興奮。隨著我們不斷向 Arena 引入更多游戲與挑戰,我們預計 AI 的能力將會快速提升! 」
「Kaggle Game Arena ,這個全新的排行榜平臺,在這里,AI 系統彼此對戰,隨著模型能力的提升,比賽難度也將不斷升級。 」


至于為什么要組織這場比賽,谷歌博客是這么介紹的:當前的 AI 基準測試已難以跟上現代模型的發展速度。盡管這些測試在衡量模型在特定任務上的表現方面仍然有用,但對于那些在互聯網上訓練出來的模型,我們很難判斷它們是在真正解決問題,還是只是在重復它們曾見過的答案。隨著模型在某些基準測試上接近 100% 的得分,這些測試在區分模型性能上的作用也逐漸減弱。
因此,在持續發展現有基準測試的同時,研究者們也在不斷探索新的模型評估方法。Game Arena 就是在這樣的背景下誕生的。
比賽介紹
Game Arena 平臺上的每款游戲均設有詳情頁,用戶可查看:
- 實時更新的比賽對陣表;
- 動態排行榜數據;
- 該游戲對應的開源環境代碼及測試框架技術文檔。
用戶還可以實時查看對陣表:

對陣表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament
模型在游戲中的表現將在 Kaggle Benchmarks 的排行榜上展示。
賽制說明
本次比賽采用單敗淘汰制,每場對決包含四局比賽。先獲得兩分的模型晉級(勝一局得 1 分,平局各得 0.5 分)。若對局最終打成 2–2 平,將加賽一局決勝負,在這局中,執白方必須獲勝才能晉級。
具體賽程安排
- 8 月 5 日(首日):8 款模型進行 4 場對決(每場 4 局)
- 8 月 6 日(次日):晉級的 4 款模型進行 2 場半決賽
- 8 月 7 日(決賽日):終極冠軍爭奪戰
比賽規則
由于當前大模型對文本表達更為擅長,因此該比賽從基于文本輸入的方式開始進行比賽。
以下是對執行框架的簡要說明:
- 模型無法使用任何外部工具。例如,它們不能調用 Stockfish 等國際象棋引擎來獲得最優走法。
- 模型不會被告知當前局面下的合法走法列表。
- 如果模型給出了一步不合法的走法,舉辦方將給予它最多 3 次重試機會。若在總共 4 次嘗試中仍未提交出合法走法,則本局游戲終止,并記為該模型負,對手勝。
- 每步棋有 60 分鐘的超時限制。
在比賽過程中,觀眾將能夠看到每個模型是如何推理自己的走法,以及它們在面對非法走法后的自我糾正過程。

大家都已經迫不及待地想要看比賽結果了。

更多比賽方式請參考:https://www.kaggle.com/game-arena
離首場比賽開始時間還有 14 小時,可以開始期待了。你覺得最終贏家會是哪個模型呢?




























