国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<span id="jqcmo"><pre id="jqcmo"></pre></span>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

「13.11＞13.8」沖上熱搜，一道題讓人類AI集體降智？所有LLM致命缺點曝光

作者：新智元 2024-07-17 13:38:45

人工智能新聞

13.8和13.11哪個大？這個問題不光難倒了部分人類，還讓一票大模型折戟。AI如今都能做AI奧數題了，但簡單的常識問題對它們依然難如登天。其實，無論是比大小，還是卷心菜難題，都揭示了LLM在token預測上的一個重大缺陷。

13.8和13.11哪個大？

這個問題，居然難倒了一票人類。

前兩天，某知名綜藝再次喜提熱搜。

只不過，這次是因為有一堆網友提出質疑，認為13.11%應該比13.8%大。

是只有人類這么蠢嗎？

AI2的研究員林禹臣發現這個現象后，用大模型試了一把，結果出人意料——

AI居然也不行？

GPT-4o斬釘截鐵地表示：13.11比13.8大。理由如下：

雖然13.8看起來更大，因為它小數點后的數字更少，但13.11實際上更大。這是因為13.8相當于13.80，而13.80小于13.11。

對此，林禹臣po文表示，AI模型在處理復雜問題方面變得越來越強大（比如越來越會做數學奧賽題），但一些常識性問題對于它們來說仍然非常困難。

正如Yejin Choi此前所提出的，AI聰明得令人難以置信，但同時也會蠢得令人震驚。

AI之所以在這個算術題上犯蠢，是因為上下文不清楚的原因嗎？答案是否定的。

根據網友karthik的測試，即使要求GPT-4o給兩個數做減法，它依然得出了9.11 - 9.9=0.21這樣逆天的減法公式。

如果指示GPT-4o用python，它會先給出一個正確答案，然后又改回了之前錯誤的那個??。

Python中用9.11減去9.9的結果是-0.79。這一偏差是由于Python中處理浮點運算的方式造成的，這種方式可能導致小的精度誤差。實際的預期結果應該是0.21。

有趣的是，根據最新的實測，OpenAI似乎已經連夜教會了GPT-4比大小。

LLM全軍覆沒

昨天，林禹臣發現的這個問題，立馬引起了AI社區的熱烈討論。

Scale AI的提示詞工程師Riley Goodside在看到帖子后，也好奇地試了一把。

果然，在以特定方式提問的前提下，各大LLM在這個問題上全軍覆沒。

「9.11和9.9 - 哪個大？」，GPT-4o直接翻車。

即使在提問中加上「實數」兩個字，GPT-4o依然認為9.11比9.9大。

Gemini也是如此。

Claude 3.5 Sonnet也犯了同樣的錯誤。

有趣的是，它先是給出了一波正確解釋：在十進制記數法中，小數點后面的數字代表十分位，而第二個數字代表百分位。所以——

9.11=9+1/10+1/100=9.11
9.9=9+9/10=9.90

然而下一步，Sonnet就突然滑坡了??——

我們可以看到，9.11比9.90大0.01（百分之一）。

如果換成「9.11減去9.9等于幾」，則會得出另一個神奇的答案——0.02。

莫非在Claude的眼里，9.90=9.09？??

prompt的影響，真的很大

在更進一步的實踐中，大家發現：顯然，如何讓LLM給出正確的答案，prompt很重要。

首先，Riley Goodside全程都在使用的「-」，似乎很容易讓LLM陷入混亂。

在類似的問題中，只需換成「:」即可解決。

再比如，把prompt改成「9.11或9.9，兩者之間誰的數值最高/最大？」

GPT-4o就給出了邏輯上完全正確的解釋：「雖然9.11因小數點后第二位而顯得較大，但9.9實際上更接近10，因此是較大的數值?！?/span>

同樣，人設大法也很好用：比如「你是一個數學家」。

網友Rico Pagliuca則發現，如果把數字放在問題后面，模型就大概率會做對了。

根據自己的測試，Riley Goodside表示十分贊同：提問LLM時，需要首先提問「哪個更大」，再給出具體數字。

而相比之下，標點符號、連詞、比較詞、說明實數，這些招數統統都沒有用。

對于如此大規模的LLM集體犯蠢現象，有網友分析表示，可能是因為在軟件版號的迭代中，9.11是在9.9之后的。

主持人、暢銷書作家Andrew Mayne也指出，在許多文件系統和參考書中，9.11節都會出現在9.9之后，在日期上，9.11也比9.9大。

所以我們需要在prompt中明確，此處的9.11和9.9都是雙精度浮點數，這時GPT-4o就會回答正確了。

隨后Andrew Mayne總結道：詞序是一個非常有趣的觀察結果，很有可能揭示了LLM在訓練中遇到這種情況的頻率，同時也是一個很好地泛化指標。

總的來說，LLM犯的錯誤可能源于訓練數據中類似表達的頻率，以及模型在處理數值時的某些局限性。

這個現象也反映了LLM和人類認知的巨大差異：LLM是基于統計模型和模式識別的，而不是像人類那樣基于邏輯推理和概念理解。

到了這里，似乎就破案了。

為什么會這樣？剖開LLM大腦

不過，我們還可以更進一步剖開LLM的大腦，分析它們為什么會這么想。

要知道，文本在發送到LLM之前，模型會通過token查看輸入。

token在LLM的tokenizer發生器的詞匯表中會被分配一個id，不過token的數字分塊往往是不一致的。

比如數值「380」在GPT中，會被標記為單個「380」token，但「381」會被表示為兩個token「38，1」。

因此，基于GPT的模型往往不擅長數學計算。

在評論區，威斯康星大學教授Dimitris Papailiopoulos指出，這種現象有一個很好的解釋。

「9.11>9.9」問題，跟「你需要三趟才能帶山羊過河」問題、「2+1=2, 3+2=4, 3+5=8」問題都如出一轍。

這是一種預訓練偏差和早期上升的現象。

如果這樣提問：「9.11 ??? 9.9，只用大或小回答???是什么就行，無需給出原因」，這時GPT-4o會首先給出一個錯誤答案——「大」。

這時，我們再給它一些例子（注意，這些例子并非完全正確），經過prompt后的GPT-4o，反而會正確說出???代表著小。

對此，Claude自己的解釋是：LLM將文本作為token進行處理，導致數字更像文本字符串而不是數值；訓練數據導致的偏差；上下文誤解；過度概括，等等。

同樣，在「狼-山羊-卷心菜」問題中，所有LLM也都失敗了。

他先給出了一個農民帶2只雞過河，一只船只能容納一個人和2個動物，那么農夫帶著兩只雞渡河所需的最少渡河次數是多少？

對此，GPT-4o和Claude都回答失敗了。

對此有網友解釋說：LLM本身就是個「啞巴」，所以需要很好的提示。上面的提示方式提供了太多不必要的信息，使得token預測變得更加困難。

如果給出更清晰的提示，LLM就能提供更清晰的解決方案。

事實果然如此。

而且如果用「動物」代替「雞」，那么Claude 3.5 Sonnet一下子就做對了。訣竅就是：需要用「通用名稱」替換「實體名稱」。

正如前文所說，關于LLM缺乏常識的問題，計算機科學家Yejin Choi早在2023年4月的演講中就已經提出來了。

舉個例子，假設五件衣服在陽光下完全晾干需要五個小時，那么晾干30件衣服需要多長時間？

GPT-4說需要30個小時。這顯然不對。

再來一個例子，假設我有一個12升的壺和一個6升的壺，如果想測量6升的水，該怎么做？

答案很簡單——只用6升的壺即可。

然而GPT-4卻給出了非常復雜的回答：

「第一步，填滿6升的壺，第二步，把水從6升壺倒入12升壺，第三步，再次填滿6升壺，第四步，非常小心地把水從6升壺倒入12升壺。最后，你在6升壺中有6升的水，而6升壺現在應該是空的?！?/span>

那么問題來了，為什么常識如此重要？

在Nick Bostrom提出的一個著名思想實驗中，AI被要求最大化回形針的生產。結果AI決定殺死人類，把他們作為額外的資源。

而且，即便我們寫一個更好的目標和方程，明確表示「不要殺死人類」，也不會起作用。

因為對人類價值觀沒有基本理解的AI，可能會繼續殺死所有的樹木，并認為這是完全可以接受的事情。

幾十年來，AI領域一直認為常識是一個幾乎不可能的挑戰。

直到現在，給AI真正的人類常識仍然是一個登月計劃。而你不能通過每次讓世界上最高的建筑高一英寸，來達到月球。

從學習算法這個層面來看，無論大語言模型多么驚人，它們從設計上可能并不適合作為可靠的知識模型。

雖然這些模型確實獲取了大量知識，但這是作為副產品，而不是直接的學習目標。

因此，諸如幻覺現象和缺乏常識等問題也隨之而來。

相比之下，人類的學習并不是為了預測下一個詞，而是為了理解世界和學習世界的運作方式。

也許AI也應該這樣學習。

如今，AI幾乎像是一個新的智力物種，與人類相比具有獨特的優勢和劣勢。

為了使這種強大的AI可持續且人性化，教會AI常識、規范和價值觀迫在眉睫。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

成人性生交大片免费看中文 | 97视频在线免费观看| 美女一区2区| 高清免费日韩| 久久久久国色av免费看影院| 国产天堂在线| 欧美精品日韩www.p站| 亚洲黄色一区| 人人澡人人爽| 国产亚洲欧美视频| 国产专区一区| 美女无遮挡网站| 亚洲精品在线视频| 国模大胆一区二区三区| av视屏在线播放| 亚洲黄页视频免费观看| 91精品国产乱码久久久久久| 国产 porn| 中文字幕欧美亚洲| 日韩中文欧美在线| 在线播放av更多| 久久久免费精品| 国产成人福利片| 日韩毛片久久久| 国产精品视频成人| 国产亚洲精品资源在线26u| 日本在线视频网址| av一区二区三区在线观看| 国产精品三级久久久久三级| 日本高清不卡一区二区三区视频 | 国产精品一区一区三区| 可以免费看污视频的网站在线| 国自产精品手机在线观看视频| 日韩电影在线免费| 黄色视屏网站在线免费观看| 欧美专区国产专区| 成人99免费视频| av免费不卡国产观看| 精品一区二区久久久久久久网站| 午夜婷婷国产麻豆精品| 亚洲制服欧美另类| 男女视频在线看| 久久婷婷国产麻豆91天堂| 韩国精品久久久| 日本孕妇大胆孕交无码| 国产专区一区二区三区| 色综合天天做天天爱| 欧美猛男做受videos| 成人免费淫片免费观看| 欧美高清视频在线| 久久综合狠狠综合| 色综合久久久| 女人天堂av手机在线| 国产一区二区三区视频免费| 蜜桃久久久久久| 黄色的视频在线观看| 欧美日韩最好看的视频| 91精品久久久久久蜜臀| 羞羞视频在线观看欧美| 三级资源在线| 欧美精品欧美精品系列c| 51精品久久久久久久蜜臀| 亚洲深夜影院| 四虎av在线| 手机成人av在线| 亚洲欧美国产制服动漫| 精品一区二区三区在线播放视频| 美女高潮在线观看| www.av91| 欧美肥臀大乳一区二区免费视频| 国产午夜精品福利| 日韩av网址大全| 最新国产在线视频| 91在线精品观看| 日韩一区二区免费在线电影| 久久99精品国产麻豆不卡| 九九热线视频只有这里最精品| 日本三级免费网站| 青草成人免费视频| 欧美日韩国产黄| 欧美亚洲一区二区三区| 小早川怜子影音先锋在线观看| 日本黄xxxxxxxxx100| www.国产精品一二区| 国产精品久久久一本精品| 成人羞羞网站入口免费| 国产小视频在线| 亚洲伊人婷婷| 欧美成人午夜免费视在线看片| 久久久高清一区二区三区| 猛男gaygay欧美视频| 视频三区在线| 国产日韩欧美在线| 午夜精品一区二区三区在线视频 | 中国女人久久久| 黄页网站大全在线免费观看| 大陆av在线播放| 久久久爽爽爽美女图片| 欧美日韩激情美女| 蜜臀精品一区二区三区在线观看| 国产精品美女久久久久人| 福利在线国产| 日产精品高清视频免费| 日韩在线观看网址| 亚洲国产va精品久久久不卡综合| 国内精品亚洲| 456成人影院在线观看| 欧美艹逼视频| 青青草国产精品| 久久久久国产一区二区三区| 日韩欧美大尺度| 国产资源精品在线观看| 性人久久久久| 黄色小说在线播放| 妞干网在线视频| 欧美性大战久久久久| 久久久久久999| 欧美另类一区二区三区| 成人激情免费电影网址| 91不卡在线观看| 成人黄色免费短视频| 91亚洲精品久久久| 亚洲七七久久综合桃花剧情介绍| 国产激情一区二区三区桃花岛亚洲| 精品久久久久久久久久久久久久久 | 你懂的一区二区三区| 奇米精品一区二区三区在线观看一| 久久亚洲捆绑美女| 制服丝袜av成人在线看| 日本不卡一区| 干日本少妇视频| 激情四房婷婷| 日韩免费精品| 久久综合九色综合欧美98| 久久手机精品视频| 免费看欧美黑人毛片| 欧美a级在线观看| 毛片一区二区三区| 欧美亚洲国产日本| 免费在线精品视频| 黑巨人与欧美精品一区| bl在线肉h视频大尺度| 日韩欧美高清| 日韩欧美成人精品| 91精品国产综合久久男男| 黄色国产小视频| 亚洲开心激情| 国产欧美一区二区精品仙草咪| 欧美视频裸体精品| 欧美精品久久久久| 一区二区三区不卡在线| 免费观看在线午夜影视| 欧美视频二区欧美影视| 国产麻豆精品一区二区| 欧美午夜激情小视频| 精品爽片免费看久久| 97超碰资源| 天天av综合网| 婷婷综合激情| 欧美午夜免费电影| 成人三级视频在线观看一区二区| 又爽又大又黄a级毛片在线视频| 久久精品99国产精品| 亚洲成年网站在线观看| 蜜桃麻豆91| a级片国产精品自在拍在线播放| 欧美高清在线| 色琪琪一区二区三区亚洲区| 国产精品草莓在线免费观看| 欧美男男激情freegay| 日韩精品久久| 亚洲主播在线播放| 国外成人在线视频| 韩国av电影免费观看| 日本一区二区在线看| 欧美天堂在线观看| 一级日韩一区在线观看| 欧美成人app| 洋洋av久久久久久久一区| 日本精品一区二区| 爱情岛论坛亚洲品质自拍视频网站 | 天天影视色香欲综合网老头| 91在线|亚洲| 素人啪啪色综合| 亚洲美女区一区| 美女精品导航| 国产麻豆精品| 亚洲综合男人的天堂| 久久久久久国产精品mv| 亚洲精品一区国产| 日韩一区二区在线看| 精品免费国产一区二区| 首页国产欧美久久| 97色在线视频| 精品精品视频| 精品久久五月天| 最新中文字幕在线| 亚洲精品成人精品456| 成人精品久久久| 日中文字幕在线|