国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Claude 3.7硬控馬里奧90秒,GPT-4o開(kāi)局暴斃!Karpathy直呼基準(zhǔn)失效,游戲成LLM新戰(zhàn)場(chǎng)

人工智能 新聞
Karpathy發(fā)出靈魂拷問(wèn),評(píng)估AI究竟該看哪些指標(biāo)?答案或許就藏在經(jīng)典游戲里!最近,加州大學(xué)圣迭戈分校Hao AI Lab用超級(jí)馬里奧等評(píng)測(cè)AI智能體,Claude 3.7結(jié)果令人瞠目結(jié)舌。

LLM評(píng)估基準(zhǔn)的「黃金標(biāo)準(zhǔn)」,正在失效?

一大早,AI大神Karpathy發(fā)出質(zhì)疑,「目前存在一種評(píng)估危機(jī),我真的不知道現(xiàn)在該看哪些指標(biāo)了」。

圖片

諸如MMLU、SWE-Bench Verified、Chatbot Arena等這些基準(zhǔn),各有自己的優(yōu)劣之處。

如果這些都不夠,那么游戲算不算?

畢竟,曾經(jīng)紅極一時(shí)的AlphaGo是圍棋界的頭號(hào)AI;就連OpenAI也早年涉足游戲領(lǐng)域,拿著自研AI在DOTA國(guó)際賽中取得亮眼的成績(jī)。

最近,Claude 3.7的出世,讓「寶可夢(mèng)」一時(shí)間成為L(zhǎng)LM評(píng)判的新標(biāo)桿。

UCSD Hao AI Lab再次出手,開(kāi)源了一種全新的「游戲智能體」,能夠?qū)崟r(shí)讓計(jì)算機(jī)使用智能體(CUA)運(yùn)行解謎、益智等類(lèi)型的游戲。

結(jié)果顯示,Claude 3.7 Sonnet玩超級(jí)馬里奧足足撐滿90s,直接碾壓了OpenAI、Gemini和自家前輩;而GPT-4o一上來(lái)就直接掛掉了……

谷歌選手Gemini 1.5 Pro首戰(zhàn)即敗,而且非常有規(guī)律地兩步一跳。到了Gemini 2.0雖多走了幾步,最終還是栽坑。

圖片

GamingAgent項(xiàng)目代碼已開(kāi)源,下載安裝即可觀戰(zhàn)AI游戲大PK。

圖片

開(kāi)源地址:https://github.com/lmgame-org/GamingAgent

「游戲智能體」演示demo

GPT-4.5反應(yīng)遲鈍,GPT-4o永遠(yuǎn)被第一個(gè)小怪殺死

GPT-4o總是被第一個(gè)小怪殺死,像極了操作很爛會(huì)被隊(duì)友噴的游戲菜雞。

短短20s,游戲就結(jié)束了。

圖片

相比之下,GPT-4.5的表現(xiàn)就好多了,起碼沒(méi)卡在第一個(gè)小怪。

圖片

但它的反應(yīng)還是很遲緩,幾乎是兩步一停。

跳過(guò)一個(gè)矮水管之前,也要猶豫片刻,感覺(jué)像是剛學(xué)會(huì)了游戲操作,還在蹣跚學(xué)步。

圖片

一個(gè)稍高點(diǎn)的水管,嘗試了7次,足足花了10s才跳了過(guò)去。

圖片

好不容易跳了過(guò)去,就撞到小怪死掉了。第一回合就這樣告終了。

圖片

更好笑的是,第二回合的時(shí)候,GPT-4.5又栽倒在了第一個(gè)小怪那里。畢竟和GPT-4o同屬于OpenAI家族,操作都比較菜(bushi)。

圖片

第三回合表現(xiàn)也比較一般,還不如第一回合。第一個(gè)矮水管就卡了半天,擱水管底下卡了快10s才想起來(lái)跳。

圖片

最后雖然絲滑地跳過(guò)了第二個(gè)水管,但還是被小怪殺死了,還沒(méi)有第一回合走得遠(yuǎn)。第一回合起碼跳過(guò)了第三個(gè)水管,雖說(shuō)剛跳過(guò)就被殺了。

圖片

GPT-4.5完整視頻

Gemini 1.5兩步一跳,2.0栽進(jìn)坑里

到了谷歌這邊,Gemini 1.5 Pro首戰(zhàn)也不如意,沒(méi)能逃過(guò)第一個(gè)小怪的魔爪。

圖片

第二回合Gemini 1.5算是躲過(guò)了第一個(gè)小怪,甚至還碰到了問(wèn)號(hào)箱,吃到了蘑菇。

圖片

有趣的是,和GPT-4.5兩步一停不同,Gemini 1.5是「兩步一跳」。

走了這么一小段路,一共就跳了9回。地板上也跳一跳,水管上也跳一跳。

圖片

最后也是跳過(guò)了第三根水管,甚至差點(diǎn)跳過(guò)了第四個(gè),算是走得比GPT-4.5要遠(yuǎn)。

圖片

至于更新的Gemini 2.0 Flash,表現(xiàn)上不出意外地要好得多。

首先,跳得更大膽;其次,跳得也更流暢。

跳到了「前人」未曾涉足的更高的平臺(tái)上,而且10s就輕松跳過(guò)了前面三個(gè)水管。

圖片

雖然第二回合的時(shí)候也慘遭第一個(gè)小怪的毒手。

圖片

但最后走得比OpenAI家族和Gemini 1.5都遠(yuǎn)——跳過(guò)了第四根水管,栽倒在了一個(gè)沒(méi)能跳過(guò)去的坑中。

圖片

Gemini 2.0 Flash完整視頻

Claude 3.7 Sonnet發(fā)現(xiàn)隱藏獎(jiǎng)勵(lì)

相比之下,Anthropic的Claude,就要驚艷多了。

圖片

相比于Gemini兩步一跳的操作,Claude 3.7的操作更加絲滑,走得也遠(yuǎn)很多。

尤其是在跳躍的時(shí)機(jī)上,顯得更有章法,碰到水管、碰到坑才會(huì)跳。

圖片

此外,還會(huì)有意識(shí)地通過(guò)跳躍來(lái)躲避小怪。

圖片

跳過(guò)了Gemini 2.0 Flash兩回合都沒(méi)跳過(guò)去的坑,Claude操作下的馬里奧終于是吃到了金幣;終于是碰到了除了哥布林(形似蘑菇)之外的小怪——庫(kù)巴(形似烏龜);甚至還碰出了隱藏獎(jiǎng)勵(lì)——超級(jí)星星。

圖片

最后是掉到了階梯平臺(tái)之間的坑里,結(jié)束了游戲。

圖片

AI大戰(zhàn)2048益智游戲,GPT-4o拿不出手

接下來(lái),再看一個(gè)益智類(lèi)的游戲2048。

可能很多人對(duì)這款游戲并不熟悉,規(guī)則是通過(guò)滑動(dòng)進(jìn)行拼圖,玩家將帶有相同數(shù)字的方塊合并,達(dá)到可能最高的數(shù)值。

GPT-4o在挑戰(zhàn)過(guò)程中,因?yàn)樗伎歼^(guò)久,陷入困境。

而Claude 3.7雖多走了幾步,比GPT-4o強(qiáng)不少,但最終還是以失敗告終。

圖片

俄羅斯方塊,智商在線

那么Claude 3.7玩俄羅斯方塊的表現(xiàn),又如何呢?

Anthropic開(kāi)發(fā)者關(guān)系負(fù)責(zé)人Alex Albert稱(chēng)贊道,「非???!我們需要把每一款電子游戲都變成一種評(píng)估工具」。

圖片

已經(jīng)有網(wǎng)友在評(píng)論區(qū)許愿,讓Grok 3加入戰(zhàn)場(chǎng)。

看來(lái),LLM評(píng)估即將開(kāi)辟一條全新的路。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-03-10 09:36:00

2024-06-28 18:13:05

2024-06-27 12:45:30

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2024-05-20 08:20:00

OpenAI模型

2025-04-08 02:26:00

2025-05-26 02:15:00

2025-03-11 13:42:19

2024-06-21 09:58:38

2024-06-21 09:51:17

2024-03-27 13:32:00

AI數(shù)據(jù)

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2024-09-24 11:13:14

2024-05-21 12:23:17

2024-06-05 08:29:35

2023-02-20 15:26:52

游戲技術(shù)

2024-11-06 15:20:00

2025-05-26 08:33:00

2025-04-01 09:25:00

2025-01-06 13:15:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美裸体网站| 国产盗摄在线观看| 国产成人激情小视频| 亚洲成人a**址| 毛片在线网址播放| 欧美人妖视频| 成人黄色大片在线观看 | 小说区亚洲自拍另类图片专区| 91美女福利视频| 亚洲精品xxxx| 亚洲欧美在线网| 不卡一区2区| 亚洲一区二区免费视频| 欧美壮男野外gaytube| 黄色在线视频网| 麻豆一二三区精品蜜桃| 99精品视频在线观看| 日日狠狠久久偷偷四色综合免费 | 福利视频一区二区| 国产日本欧美在线观看| 四虎黄色影院| 性欧美videoshd高清| 国产一区二区伦理片| 免费人成自慰网站| 麻豆视频免费在线观看| 91精品一区国产高清在线gif| 亚洲欧美综合另类中字| 久久久久亚洲av无码专区喷水| 久久香蕉av| 日韩成人一区二区| 亚洲成av人片在线观看香蕉| 女人一区二区三区| 丝袜在线视频| 黄色精品一区二区| 91精品国产高清久久久久久91裸体| 青梅竹马是消防员在线| 一区二区三区四区在线观看国产日韩 | 亚州色图欧美色图| 日韩av久操| 在线观看亚洲精品| 久久伊人一区二区| 香蕉国产精品| 日韩免费在线视频| 青青草在线免费观看| ...av二区三区久久精品| 国产欧洲精品视频| 亚洲人和日本人hd| 欧美视频精品在线观看| 亚洲日本欧美在线| 福利视频亚洲| 一区二区三区小说| 国产精品免费看一区二区三区| 精精国产xxxx视频在线| 成人免费视频视频| 激情成人开心网| 欧美性少妇18aaaa视频| 91精品国产综合久久久久久蜜臀| 丁香五月缴情综合网| 午夜精品久久久久影视| 欧美日韩三区四区| 日韩一区精品视频| 一区精品在线| 亚洲盗摄视频| 日韩av电影手机在线| 国产一区二区三区网| 日韩一区二区在线观看视频播放| 特级西西444| 欧美精品一二| 日韩欧美一区二区久久婷婷| 欧美性潮喷xxxxx免费视频看| 日韩成人午夜| 日韩欧美国产小视频| 岛国片av在线| 亚洲成在人线在线播放| 天堂社区 天堂综合网 天堂资源最新版 | hitomi一区二区三区精品| 国产精品久久久久久中文字| 国产又色又爽又黄刺激在线视频| 亚洲激情小视频| 欧美久久久网站| 色婷婷精品大视频在线蜜桃视频| 亚洲第一精品区| 精品在线91| 中文欧美在线视频| 天堂av网在线| 日韩精品一区二区三区在线| 成人mm视频在线观看| 欧美日韩五月天| 黄色亚洲网站| 在线日韩一区二区| аⅴ资源天堂资源库在线| 亚洲自拍另类综合| 国产精品视频一二三四区| 久久亚洲一区二区三区明星换脸| 欧美精品中文字幕一区二区| 国产福利91精品一区二区三区| 91网免费观看| 国产主播一区二区三区| 成人天堂av| 日韩一卡二卡三卡国产欧美| 日韩专区视频| 亚洲成人精品视频| 成人爽a毛片| 在线电影av不卡网址| 福利片在线看| 亚洲欧美日韩一区二区三区在线观看 | 亚洲人人精品| 成人av在线天堂| 精品国产一区二区三区2021| 亚洲aaaaaa| 欧美丝袜激情| 不卡中文字幕在线| 亚洲国产人成综合网站| 成人天堂yy6080亚洲高清| 91精品国产91综合久久蜜臀| 欧美日本韩国一区二区| 亚洲国产精品精华液网站| 国产伦子伦对白在线播放观看| 国产精品久久久久久久久借妻| 日韩中文字幕| 尤物九九久久国产精品的分类| 日韩激情一区| 蜜臀av午夜一区二区三区| 91在线观看视频| 黄视频在线播放| 欧美日韩激情小视频| 台湾天天综合人成在线| 茄子视频成人在线观看| 日韩中文字幕91| 毛片毛片毛片毛片| 亚洲成精国产精品女| 成人在线观看免费播放| 免费在线国产精品| 色婷婷国产精品| 天堂а√在线资源在线| 欧美性猛交xxxxxx富婆| 免费看a在线观看| 国产精品成人一区| 久久久久久久久久看片| 羞羞在线观看网站| 国产亚洲xxx| 日韩在线激情| 一区二区三区在线视频看| 91黄视频在线| 日韩精品久久久久久久电影99爱| 狠狠操精品视频| 一区二区日韩av| 美女日韩一区| 成人小视频在线观看免费| 日韩久久久精品| 亚洲一区激情| 艳母动漫在线免费观看| 日韩一区二区在线观看视频 | 激情综合五月| 欧美视频在线观看视频| 日韩精品在线免费| 中文成人在线| 久久久久亚洲精品国产| 欧美欧美黄在线二区| 另类小说第一页| 伊人夜夜躁av伊人久久| 国产激情一区| 国产精国产精品| 亚洲三级小视频| 高清欧美性猛交xxxx黑人猛| 日韩一级免费在线观看| 欧美大胆a视频| 欧美xxxx中国| 综合操久久久| 亚洲第一中文字幕| 奇米色777欧美一区二区| 自拍日韩亚洲一区在线| 亚洲在线中文字幕| 午夜欧洲一区| 性网站在线播放| 国产在线观看91精品一区| 一本色道a无线码一区v| 在线观看国产精品入口| 91网页在线观看| 欧美成人性色生活仑片| 国产午夜精品久久久久久久| 天堂av在线7| 开心色怡人综合网站| 精品国产伦一区二区三区观看体验 | 国产精品久久久久av蜜臀| 色视频网站在线| 国产剧情久久久久久| 国产在线观看一区二区| 97成人资源| 999在线免费视频| 国产日韩欧美在线观看| 91麻豆精品国产91久久久使用方法| 国产亚洲精aa在线看| caopor在线视频| 亚洲精选视频免费看| 亚洲大胆人体大胆做受1| 99久久国产综合精品色伊| 亚洲欧美小说色综合小说一区| 久久综合久久88| 亚洲日本欧美|