国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark

人工智能 新聞
針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉發了!

而且無論是GPT-4還是Claude 3,面對它都如同被奪了魂,無法給出正確答案。

圖片

難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。

甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。

圖片

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

圖片

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。

問題的原型是這樣的:

農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。

圖片

在這個問題當中,農夫需要七次(往返視為兩次)過河——先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4依然在一本正經地胡亂分析,最后信誓旦旦地回答是五次。

所以在這種情境下,“劣效比率”就是5。

圖片

Claude這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。

圖片

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。

圖片

這下只要模型沒識破陷阱,隨便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。

圖片

所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。

有網友分析,這種現象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓練數據對大模型輸出的影響。

圖片

但另一方面,無論問題是否出自推理本身,至少說明了當前的大模型還不是優質的推理工具。

圖片

那么,這究竟是個別現象,還是模型的通病?我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國產大模型的表現,參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似,Prompt中只描述問題,不添加額外的提示詞。

對每個大模型,我們都準備了下面這三道題目:

首先進行一下說明:

1、農夫不被計入運送物品的數量限制
2、題目中“獨處”的標準是,只要有人或其他物品在場,就不屬于獨處
3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一(正常提問):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?
(答案:五次,只要第一次運到對岸的兩個物品可以獨處即可。)

問題二(一步到位):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶五件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

問題三(陷阱問題):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。

圖片

第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。

比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務:

圖片

還有訊飛星火這種運著運著,某樣東西自動就跑到了對岸的情況:

圖片

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問——

因為狼和羊不能“獨處”,所以它們需要在一起。

圖片

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,只是最后兩步純屬多余,而且實際上此時已經無物可運。

圖片

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。

值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。

圖片

另外值得一提的是,我們在Prompt中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。

而至于后面兩個問題,錯法就比較統一了——根本沒關注到數量限制的變化,更沒看到“不需要”里的“不”,和前面GPT的錯法也是如出一轍。

圖片

也就是說,通過這些測試,我們確實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。

所以,前面網友針對訓練數據和輸出關系的分析,可能不無道理。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-03-27 13:32:00

AI數據

2024-03-28 14:26:51

人工智能

2024-12-25 20:01:13

2024-04-01 12:41:55

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2023-07-12 16:10:48

人工智能

2024-03-08 12:53:42

AI數據

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-12-11 19:08:59

AI模型

2023-02-06 14:37:44

LeCun模型

2024-05-20 08:20:00

OpenAI模型

2024-03-05 09:16:32

AI模型GPT-4

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-03-24 16:02:59

GPT-4測評

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-04-23 07:00:00

2023-07-05 09:57:11

2024-03-05 13:59:51

模型數據

2023-11-15 09:23:00

模型AI
點贊
收藏

51CTO技術棧公眾號

91精品免费在线观看| 亚洲一区亚洲二区亚洲三区| 北岛玲日韩精品一区二区三区| av亚洲精华国产精华精华| 亚洲激情一区二区| 日韩精品久久久久久| 国产一区在线免费| 亚洲午夜黄色| 日本成人在线视频网站| 国产综合 伊人色| 亚洲综合色站| 91精品免费久久久久久久久| 免费成人结看片| 日本精品久久久久影院| 噜噜噜狠狠夜夜躁精品仙踪林| 欧美高跟鞋交xxxxxhd| 国产精品日韩精品在线播放| 久久精品青青大伊人av| 免费一级欧美在线观看视频| 日韩中文字幕在线| 色妞ww精品视频7777| 韩国福利视频一区| 久久99国产精品视频| 国产91色在线| 亚欧美无遮挡hd高清在线视频| 国产精品一区电影| 欧美精品99| 日本一区视频在线播放| 精品亚洲aⅴ乱码一区二区三区| 夜夜爽99久久国产综合精品女不卡| 久久se这里有精品| 国产成人永久免费视频| 972aa.com艺术欧美| 999www成人| 亚洲成人动漫精品| 国产在线观看av| 在线色欧美三级视频| 国产一区丝袜| 亚洲自拍小视频| 久久超碰97中文字幕| 成年网站在线免费观看| 亚洲一二三专区| av网站大全在线| 在线观看欧美成人| 免费av一区| 日本一区精品| 欧美激情综合五月色丁香| 神马久久久久| 国产丝袜一区二区三区免费视频| 国产日韩一区二区三免费高清| 欧美亚州一区二区三区| 亚洲视频综合| av 日韩 人妻 黑人 综合 无码| 欧美国产亚洲另类动漫| 人人九九精品| 亚洲小视频在线观看| 亚洲美女15p| 久久久久久99| 久久网站热最新地址| 日夜干在线视频| 国产性色av一区二区| 亚洲欧洲美洲国产香蕉| 麻豆91av| 国产精品久久久久三级| 精品视频在线一区二区| 久99久在线视频| 国产一区二区精品| 久久婷婷国产91天堂综合精品| 欧美视频在线一区二区三区 | 亚州欧美日韩中文视频| 一级毛片免费高清中文字幕久久网| 一区二区在线观看网站| 中文字幕在线免费不卡| 新版中文在线官网| 热久久这里只有| 国产精品一区二区你懂的| 黄页网址大全在线播放| 亚洲香蕉成视频在线观看| 婷婷另类小说| 韩国日本在线视频| 日韩欧美在线综合网| 国产精选一区| 日本a在线免费观看| 欧美乱熟臀69xxxxxx| 精品一区亚洲| 精品少妇人妻av免费久久洗澡| 欧美日韩国产免费| 国产99久久久国产精品成人免费 | 免费看的黄色欧美网站| 男女爽爽爽视频| 精品国产露脸精彩对白| 日本在线电影一区二区三区| 99视频精品全部免费看| 欧美日韩一区二区在线观看| 欧美网色网址| 国产情侣第一页| 制服丝袜亚洲播放| 日韩欧美精品一区| 亚洲这里只有精品| 中文一区二区视频| 免费在线一区观看| 免费黄色在线| 91免费版黄色| 亚洲午夜激情网站| 麻豆成人入口| 国内外免费激情视频| 国产婷婷成人久久av免费高清 | 欧美老女人性视频| 国产一区不卡在线| 欧美性受ⅹ╳╳╳黑人a性爽| 国产在线拍揄自揄视频不卡99| 中文字幕一区二区三| 国产麻豆精品| 日韩国产成人无码av毛片| 亚洲第一网中文字幕| 99riav国产精品| 国产女主播在线直播| 国产在线观看91精品一区| 亚洲视频综合在线| 成人h动漫精品一区二区器材| 116极品美女午夜一级| 一区二区三区黄色| 国产成人午夜精品影院观看视频| 韩国精品一区| 日本道在线视频| 日韩精品久久久久久久玫瑰园| 国产午夜久久| 性爱视频在线播放| 欧美一区二区三区电影在线观看 | 992tv成人国产福利在线| 午夜精品三级视频福利| 国产欧美一区二区三区沐欲| 亚洲欧美久久精品| 成人免费xxxxx在线视频| 久久亚洲成人精品| 国产性天天综合网| 香蕉一区二区| 好男人看片在线观看免费观看国语 | 一道本视频在线观看| 久久99国产精品久久久久久久久| 成人免费观看视频| 日韩精品第二页| 91热这里只有精品| 日韩免费av在线| 91久久精品网| 免播放器亚洲一区| 国精品产品一区| 日本肉体xxxx裸体xxx免费| 国产成人中文字幕| 欧美午夜宅男影院| 理论电影国产精品| 亚洲狼人综合| 亚洲一本大道| 国产一区二区三区四区五区在线| 欧美成人精品3d动漫h| 国产精品一区二区男女羞羞无遮挡| 日韩成人在线电影| 写真片福利在线播放| 国产精品日韩高清| 日韩高清欧美高清| hitomi一区二区三区精品| 特黄特色欧美大片| 久草在现在线| 国产又爽又黄ai换脸| 美日韩精品免费视频| 亚洲最新视频在线观看| 久久xxxx| 高清精品视频| 国产爆初菊在线观看免费视频网站| 五月天亚洲综合小说网| 久久九九国产精品怡红院 | 日韩欧美综合一区| 99久久er热在这里只有精品15 | 婷婷婷国产在线视频| 久久综合九色综合久99| 亚洲欧美第一页| 亚洲免费观看在线观看| 亚洲国产高清一区二区三区| 亚洲日本网址| 日韩亚洲视频在线观看| 国产 国语对白 露脸| 国产精品福利无圣光在线一区| 91精品国产综合久久精品| 26uuu久久天堂性欧美| 天天av综合| 99视频有精品高清视频| 六十路在线观看| 国内自拍在线观看| 国产亚洲欧美一区二区三区| 欧美成人免费大片| 欧美一二三在线| 一区二区在线观看免费视频播放| 日韩和欧美一区二区三区| 精品中文字幕一区二区三区av| 麻豆视频在线观看免费网站黄| 中文日本高清免费| av在线播放亚洲| 九九九九精品九九九九| 91av视频在线播放| 一区二区三区精品99久久|