国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

高中生用「我的世界」評測SOTA模型!Claude暫時領(lǐng)先,DeepSeek緊隨其后

人工智能 新聞
AI頻頻刷新基準(zhǔn)測試紀(jì)錄,卻算不清「strawberry」里到底有幾個字母r,在人類看來很簡單的問題卻頻頻出錯。這種反差促使創(chuàng)意測評興起,例如由一名高中生開發(fā)的MC-Bench,用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式,或許更貼合人類對AI直觀、創(chuàng)造性能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學(xué)考試中獲得88分」哪個更難?

對于現(xiàn)如今的LMMs來說,通過各種人類「聽著就頭痛,看又看不懂」的基準(zhǔn)測試似乎已是家常便飯。

比如DeepSeek-R1發(fā)布時在6大基準(zhǔn)測試(包含AIME、MMLU、MATH-500等)中超過o1取得領(lǐng)先。

圖片

但是對于人類來說依靠直覺和下意識就能回答的問題,LLM們似乎集體有點「發(fā)懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績,但卻無法數(shù)清楚「strawberry」中有多少r。

除了復(fù)雜的基準(zhǔn)測試,另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進(jìn)行上提問投票,選出面對相同問題時的「最佳模型」。

圖片

但是這種依靠Chat模式的評測依然不太直觀,于是各種各樣的創(chuàng)意評測就誕生了。

創(chuàng)意評測的魅力

圖片

Minecraft Benchmark(或 MC-Bench)像一個競技場,在一對一的挑戰(zhàn)中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上,Claude3.7暫時領(lǐng)先,deepseek-r1位列第5,但是考慮到DeepSeek-R1的發(fā)布時間,Claude3.7、GPT-4.5和Gemini2.0都相當(dāng)于是「新一代」的模型了,期待DeepSeek-R2出來后的榜單!

圖片

像MC-Bench這樣的創(chuàng)意評測,優(yōu)勢非常明顯:普通人也能輕松參與,像「選美」一樣簡單直接。

創(chuàng)造MC-Bench項目的僅僅是一名高中生Adi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲,即使對于沒玩過Minecraft游戲的人來說,仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發(fā)的,除了Adi Singh外,貢獻(xiàn)者還有7位,包括了「提示詞創(chuàng)意官」、技術(shù)主管和開發(fā)者們。

圖片

并獲得了Anthropic、Google和阿里巴巴等公司的技術(shù)支持。

圖片

傳統(tǒng)LLM評測:嚴(yán)肅認(rèn)真但未必管用

傳統(tǒng)的AI基準(zhǔn)測試技術(shù)被證明不足,主要體現(xiàn)在以下幾個方面:

  • 主場優(yōu)勢 (Overfitting to benchmarks):傳統(tǒng)的 AI 基準(zhǔn)測試往往基于特定類型的任務(wù)設(shè)計,這些任務(wù)對 AI 模型來說相對固定且簡單,這種過擬合就像一名「只會背題」的學(xué)生。
  • 測試任務(wù)過于狹窄:傳統(tǒng)的測試任務(wù)多集中于單一維度的能力評估,如語言理解、邏輯推理、數(shù)學(xué)計算。
  • 缺乏真實環(huán)境與開放性:傳統(tǒng)的基準(zhǔn)測試通常使用高度抽象化或理論化的環(huán)境,而這些環(huán)境往往不能反映現(xiàn)實世界中問題的開放性和不確定性。
  • 難以衡量通用性與泛化能力:傳統(tǒng) AI 基準(zhǔn)測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構(gòu)建者正在轉(zhuǎn)向更有創(chuàng)意的方法來評估Gen-AI模型的能力。

AI開發(fā)者們表示,我們也想玩點「新鮮的」。

圖片

MC-Bench的本質(zhì)是在測試AI模型的文本理解和編碼能力。

通過類似Chatbot Arena的方式來進(jìn)行模型評比。

圖片

對于為何選擇游戲,選擇Minecraft,Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介,比現(xiàn)實生活更安全,也更適合測試目的,因此在我看來更為理想」。

從Adi Singh個人網(wǎng)站來看,他對于使用Minecraft方塊進(jìn)行AI評測應(yīng)該是「蓄謀已久」,Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如,gpt-4.5根據(jù)提示「構(gòu)建一艘在云層中飛行的蒸汽朋克風(fēng)格飛艇」。

圖片

再比如,claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型,根據(jù)提示「韓國友誼之鐘」生成。

圖片

并且,社區(qū)成員對MC-Bench的評價也很高。

圖片

比如目前就職于OpenAI的基礎(chǔ)研究員Aidan McLaughlin,對Minecraft Bench給予了很高的評價:你應(yīng)該密切關(guān)注MC-Bench!

Aidan McLaughlin同時給出了他認(rèn)為最佳的人工智能基準(zhǔn)應(yīng)具有: 

  • 審計數(shù)據(jù)的樂趣 (與其他所有基準(zhǔn)測試都不同) 
  • 測試真正關(guān)心的功能 (代碼、美學(xué)、意識) 
  • 甚至可以辨別頂級型號之間的性能差異

圖片

游戲測評AI似乎依然是「主流創(chuàng)意」

在Claude 3.7 Sonnet發(fā)布時說過,模型降低了在數(shù)學(xué)、競賽和編程方面的特化程度,有「更好」的思考能力。

那么如何評測新模型的「思考」能力呢?

答案就是游戲《寶可夢》,這不是開玩笑。

Claude通過配備了透過程序來操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過程,可以看到它如何學(xué)習(xí)、思考并采取行動。

圖片

不論是傳統(tǒng)的基準(zhǔn)測試,還是類似MC-Bench的創(chuàng)意測試。

對于生成式AI的能力評測,目前依然沒有一個「一勞永逸」的標(biāo)準(zhǔn)。

傳統(tǒng)基準(zhǔn)測試的評估結(jié)果多采用單一的客觀分?jǐn)?shù)(如準(zhǔn)確率),忽視了人類實際感受和主觀評價的維度。

在生成式AI中,美學(xué)感知、創(chuàng)造力、直觀性往往更加重要,但這些因素很難在傳統(tǒng)的標(biāo)準(zhǔn)化測試中體現(xiàn)出來。

也許類似MC-Bench這樣的創(chuàng)意評測會給未來的AI評測帶來新的「范式」。

而新的AI評測「范式」也許會加速推動AI的發(fā)展。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2019-07-04 15:57:16

數(shù)據(jù)安全互聯(lián)網(wǎng)

2009-09-29 17:42:56

2020-12-09 13:59:15

神經(jīng)網(wǎng)絡(luò)AI算法

2009-05-20 09:02:53

IT職業(yè)培訓(xùn)就業(yè)高中生

2024-08-19 08:45:00

開源模型

2010-03-31 10:11:08

多核

2025-03-21 13:05:18

模型評測基準(zhǔn)

2023-06-20 18:33:00

DOM框架React

2011-04-19 09:40:31

2020-10-11 20:40:58

編程語言PythonJava

2009-08-10 17:08:52

計算機專業(yè)就業(yè)IT培訓(xùn)

2009-04-14 15:30:25

2024-09-29 13:24:41

2025-06-09 15:26:53

ChatGPTGPT-4o4o-mini

2010-01-29 10:24:17

2021-03-24 10:15:18

人工智能機器學(xué)習(xí)技術(shù)

2015-10-20 17:40:42

2021-01-14 16:25:18

iPhone 7服務(wù)器開發(fā)者

2021-08-20 16:24:16

算法圓周率技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

毛片在线播放网站| 国产精品一区二区中文字幕| 91久久久精品国产| 黄色免费视频大全| 欧美a级在线| 国产精品第一页在线| 136国产福利精品导航网址应用| 亚洲精品美女在线观看播放| 尤物视频在线看| 这里只有精品视频在线观看| av大片在线播放| 欧美综合一区二区三区| 亚洲欧洲成人| 色欧美片视频在线观看在线视频| 午夜视频在线观看韩国| 欧美日韩午夜激情| 男人的天堂在线| 欧美亚洲动漫制服丝袜| 成年人在线视频| 国产精品视屏| 欧美黑人一区二区三区| 亚洲国产欧美国产第一区| 久久99精品久久久久久噜噜| 永久免费精品视频| 欧美专区日韩视频| 欧洲grand老妇人| 国产精品综合久久久| 欧美综合一区| 99精彩视频| 欧美亚洲自偷自偷| 99re6这里有精品热视频| 成人激情免费电影网址| 手机在线免费观看毛片| 亚洲高清免费观看| 中文字幕在线观看日本| 日韩不卡中文字幕| 亚洲精品18| 国产精品美女免费| 六月婷婷一区| 欧美在线一区视频| 亚洲男人的天堂一区二区| 黄色在线小视频| 日韩激情在线视频| 视频精品一区| 亚洲综合中文字幕在线观看| 久久福利精品| 看av免费毛片手机播放| 亚洲图片欧美综合| 污的网站在线观看| 久久成人精品视频| 久久久久国产精品| 一级黄色录像免费看| 欧美经典一区二区三区| 日韩精品一二| 国产视频一区在线| 蜜桃国内精品久久久久软件9| 国产一区免费在线| 国产精品中文字幕日韩精品| 成人看片app| 欧美老人xxxx18| 日韩在线视频一区二区三区| 91日本在线视频| 国产99精品国产| 中文字幕在线二区| 国产一区二区三区在线播放免费观看| 日韩深夜福利| 亚洲精品欧美精品| 亚洲一区二区三区小说| 在线最新版中文在线| 国产精品永久在线| 成人国产免费视频| 9191在线| 欧美自拍大量在线观看| 精品亚洲国内自在自线福利| 污网站免费看| 亚洲女同精品视频| 欧美理论在线| 日韩av片网站| 亚洲精品福利视频| 91精品秘密在线观看| 国产亚洲天堂网| 国产欧美一区二区在线播放| 亚洲国产裸拍裸体视频在线观看乱了中文| 久久亚洲a v| 欧美色另类天堂2015| 91tv亚洲精品香蕉国产一区| 成人a级免费视频| 波波电影院一区二区三区| 一区二区三区视频在线观看视频| 久久99热狠狠色一区二区| 99青春婷婷视频| 国产亚洲精品久久久| 亚洲国产专区| y4480在线8影院| 欧美精品videosex牲欧美| 久久免费黄色| 午夜在线网站| 2019中文字幕在线观看| 成人黄色在线看| 毛片在线导航| 久久久久高清| 91成人网在线| 99久久99视频只有精品| av污在线观看| 大量国产精品视频| 成人手机电影网| 自拍网站在线观看| 亚洲国产精品久久久久婷婷老年| 日本久久电影网| 国产欧美日韩视频在线| 亚洲综合欧美激情| 欧美成人免费小视频| 国产成人综合亚洲网站| 黄页网站在线| 日本在线观看一区| 91精品国产乱码| 在线午夜精品| 人人干在线视频| 国产精品一区二区三区四区五区 | 中文字幕在线影院| 国内精品久久久久久中文字幕| 成人午夜电影小说| 亚洲成人人体| 日韩精品在线视频免费观看| 精品亚洲一区二区三区在线播放| 日本不卡一区二区三区| 日本在线观看大片免费视频| 欧美精品免费观看二区| 91精品国产日韩91久久久久久| 在线观看一区视频| av电影在线观看网址| 国产主播一区二区三区四区| 欧美精品电影在线播放| 久久精品一区二区国产| 青草在线视频| 肉大捧一出免费观看网站在线播放| 日韩av在线网| 成人免费观看av| 欧美午夜网站| 老司机性视频| 91香蕉国产在线观看| 在线看国产一区二区| 欧美视频亚洲视频| www免费视频观看在线| 亚洲日本精品国产第一区| 精品国产不卡一区二区三区| 国产一区二区三区四| 国产精品色婷婷在线观看| 亚洲久久中文字幕| 国产精品久久91| 欧美伊人久久久久久久久影院| 亚洲欧美日韩综合国产aⅴ| 国内激情视频在线观看| 无码专区aaaaaa免费视频| 久久久免费精品视频| 亚洲一区二区视频在线| 国产日韩欧美三区| 亚洲成人激情社区| 69日本xxxxxxxxx49| 国产精品日韩一区二区| 国产丝袜一区二区| 亚洲欧洲成人av每日更新| 亚洲深深色噜噜狠狠爱网站| 97人人在线视频| 成人网18免费看| 国产一区不卡在线观看| 亚洲视屏在线播放| 亚洲婷婷在线视频| 一区二区三区国产盗摄| 日韩中文视频| av天天在线| 欧美影视一区二区| 免费91麻豆精品国产自产在线观看| 亚洲成年人网站在线观看| 日韩国产精品91| 国产精品自在线拍| 丝袜美腿美女被狂躁在线观看| 国产 欧美 日韩 一区| 国产精品国产三级国产专播精品人| 91精品国产一区二区三区香蕉| 91麻豆国产自产在线观看| 自由日本语亚洲人高潮| 色天使综合视频| 视频午夜在线| 国产黄视频在线| 国产成人免费观看| 久久中文字幕一区| 欧美三片在线视频观看| 91网站在线观看视频| 黄页网站一区| 国产精品1区在线| 看电影就来5566av视频在线播放| 日韩最新中文字幕| 成人av番号网| 久久综合电影一区| 日韩午夜三级在线| 亚洲成av人片在www色猫咪| 99在线热播精品免费| 一区二区三区精品视频在线观看| 超碰精品在线|