谷歌約戰，DeepSeek、Kimi都要上，首屆大模型對抗賽明天開戰

2025-08-05 15:11:36

人工智能新聞

一場激動人心的 AI 國際象棋比賽即將開幕。

看夠了研究者們天天在論文上刷新基準，是時候拉模型出來遛一遛，性能是不是真如傳說中的碾壓全場？

太平洋時間 8 月 5 日至 7 日，一場為期 3 天的 AI 國際象棋比賽讓人無比期待。

開局第一天，就有 8 款前沿 AI 模型展開對決：

參與比賽的模型包括：

o4-mini（OpenAI）
DeepSeek-R1（DeepSeek）
Kimi K2 Instruct（月之暗面）
o3（OpenAI）
Gemini 2.5 Pro（谷歌）
Claude Opus 4（Anthropic）
Grok 4（xAI）
Gemini 2.5 Flash（谷歌）

直播地址：https://www.youtube.com/watch?v=En_NJJsbuus

這次參賽方都是 AI 界模型頂流（包括兩款中國的開源模型），對戰雙方的性能也旗鼓相當。

組織方還邀請了世界頂級國際象棋專家擔任解說，可謂是誠意滿滿。

這場比賽主要基于 Kaggle Game Arena，這是谷歌推出的一個全新的、公開的基準測試平臺，在這里，AI 模型可以在策略游戲（如國際象棋和其他游戲中）中展開正面交鋒，一決高下。

為了確保透明性，游戲執行框架以及游戲環境本身都將開源。最終排名將采用嚴格的全員對抗賽制（all-play-all）確定，每對模型進行大量對戰來確保統計結果的可靠性。

諾獎得主、Google DeepMind 聯合創始人兼首席執行官 Demis Hassabis 激動地表示：「游戲一直是檢驗 AI 能力的重要試煉場（包括我們在 AlphaGo 和 AlphaZero 上的研究），而如今我們對這個基準測試平臺所能推動的進步感到無比興奮。隨著我們不斷向 Arena 引入更多游戲與挑戰，我們預計 AI 的能力將會快速提升！」

「Kaggle Game Arena ，這個全新的排行榜平臺，在這里，AI 系統彼此對戰，隨著模型能力的提升，比賽難度也將不斷升級。」

至于為什么要組織這場比賽，谷歌博客是這么介紹的：當前的 AI 基準測試已難以跟上現代模型的發展速度。盡管這些測試在衡量模型在特定任務上的表現方面仍然有用，但對于那些在互聯網上訓練出來的模型，我們很難判斷它們是在真正解決問題，還是只是在重復它們曾見過的答案。隨著模型在某些基準測試上接近 100% 的得分，這些測試在區分模型性能上的作用也逐漸減弱。

因此，在持續發展現有基準測試的同時，研究者們也在不斷探索新的模型評估方法。Game Arena 就是在這樣的背景下誕生的。

比賽介紹

Game Arena 平臺上的每款游戲均設有詳情頁，用戶可查看：

實時更新的比賽對陣表；
動態排行榜數據；
該游戲對應的開源環境代碼及測試框架技術文檔。

用戶還可以實時查看對陣表：

對陣表：https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在游戲中的表現將在 Kaggle Benchmarks 的排行榜上展示。

賽制說明

本次比賽采用單敗淘汰制，每場對決包含四局比賽。先獲得兩分的模型晉級（勝一局得 1 分，平局各得 0.5 分）。若對局最終打成 2–2 平，將加賽一局決勝負，在這局中，執白方必須獲勝才能晉級。

具體賽程安排

8 月 5 日（首日）：8 款模型進行 4 場對決（每場 4 局）
8 月 6 日（次日）：晉級的 4 款模型進行 2 場半決賽
8 月 7 日（決賽日）：終極冠軍爭奪戰

比賽規則

由于當前大模型對文本表達更為擅長，因此該比賽從基于文本輸入的方式開始進行比賽。

以下是對執行框架的簡要說明：

模型無法使用任何外部工具。例如，它們不能調用 Stockfish 等國際象棋引擎來獲得最優走法。
模型不會被告知當前局面下的合法走法列表。
如果模型給出了一步不合法的走法，舉辦方將給予它最多 3 次重試機會。若在總共 4 次嘗試中仍未提交出合法走法，則本局游戲終止，并記為該模型負，對手勝。
每步棋有 60 分鐘的超時限制。

在比賽過程中，觀眾將能夠看到每個模型是如何推理自己的走法，以及它們在面對非法走法后的自我糾正過程。

大家都已經迫不及待地想要看比賽結果了。

更多比賽方式請參考：https://www.kaggle.com/game-arena

離首場比賽開始時間還有 14 小時，可以開始期待了。你覺得最終贏家會是哪個模型呢？

責任編輯：張燕妮來源：機器之心

AI 模型象棋

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌約戰，DeepSeek、Kimi都要上，首屆大模型對抗賽明天開戰

比賽介紹