国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ICML 2024演講爆火!Meta朱澤園揭秘大模型內心世界:不同于人類的2級推理

人工智能 新聞
與 99% 以上的研究 LLM 行為過程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數學問題時的心理過程(mental process),為理解 LLM 的智能提供了新的視角。

大語言模型 (LLM) 是如何解數學題的?是通過模板記憶,還是真的學會了推理思維?模型的心算過程是怎樣的?能學會怎樣的推理技能?與人類相同,還是超越了人類?只學一種類型的數學題,是會對通用智能的發展產生幫助?LLM 為什么會犯推理錯誤?多大多深的 LLM 才能做推理?

圖片

論文地址:https://arxiv.org/abs/2407.20311

近日,來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園四人團隊最新公布 arXiv 論文《語言模型物理學 Part 2.1:小學數學與隱藏的推理過程》用可控實驗,巧妙地回答上述問題。推特網友 @xlr8harder 評價,「這一結果將一勞永逸地平息關于 LLM 是否具有推理能力,或者只是隨機鸚鵡的爭論。」

編者注:《語言模型物理學》全系列受邀于 7 月 22 日在 ICML 2024 國際機器學習頂級大會上進行了兩小時的專題報告,反響熱烈,據悉現場掌聲不斷。這里為大家呈現系列中的 Part 2.1。

圖 1

論文詳解

首先,根據本系列的慣例,作者認為不應通過與 GPT-4 等大模型對話來猜測其思維方式,這類似于動物行為學,雖可行但不夠嚴謹,無法科學地揭示 GPT-4 的內心思考過程。

此外,從數據角度看,只有完全訪問模型的預訓練集(pretrain data),才能明確哪些題目是模型見過的,哪些是通過推理學會的。即使模型在 GSM8k(包含 8000 道小學數學題的基準測試集)上獲得高分,也難以判斷它是否見過這些題目的變體(如不同語言或 GPT-4 改寫后的變體)。

為此,作者創建了 iGSM,一個人工合成的、模擬小學數學級別的思維題集,并讓模型從零開始在 iGSM 上預訓練,以控制模型接觸的問題類別。值得注意的是,iGSM 不包含常識信息,只包含 mod 23 范圍內的加減乘,并且所有計算都使用 CoT 逐步進行。通過 iGSM,可進行可控實驗,專門研究模型的推理能力,而忽略了其他因素(如大整數運算)。圖 2 展示了一個簡單的例題。

圖片圖 2

通過這個數據集,作者首先測試了 GPT2(RoPE 版)的表現。用 op 代表解題所需的數學運算步數,作者發現,當在 op≤21 的題目上進行訓練時,模型不僅能達到 99% 正確率,還能在更高難度的題目(如 op=32)上保持 83% 的正確率(見圖 3)。這表明模型學會了某種推理技能,畢竟它從未見過 op>21 的題。(順帶一提,GPT-4o 在該數據集上僅能應對 op=10 的題目,超過這個難度就如同盲猜,文末我們會討論這個問題。)

那模型究竟學會了怎樣的推理技能呢?解決 iGSM 的數學題至少有兩種思路。一種是作者稱為「0 級推理」,即「暴力計算能算則算」。由于題目中的變量可能存在復雜的依賴關系,有些可以直接計算,有些則需要先算出其他變量 —— 譬如小張比小王多 3 倍的水果,那么就要先算出小王有多少蘋果、梨子并求和,才可以開始計算小張的水果數。「0 級推理」就是盡可能枚舉所有變量,每次隨機找到一個可計算的變量,算出結果并繼續。

與之對應的是「1 級推理」:通過拓撲排序,從問題開始反推,確定哪些變量需要計算,然后從葉子節點開始向上計算,力求「最短解答」。常見的數學題解通常采用 1 級推理,不會去計算「不必要的變量」。例如小張比小王多 3 倍的水果,問小張有多少水果,那小李的蘋果數就是不必要的變量,而小王的蘋果、梨子數都是必要的。

如圖 3 所示,作者發現,GPT-2 可以學會 1 級推理,幾乎每次都給出最短解答。這非常不簡單!因為在模型生成第一句話之前,必須已經在腦海中完成了整個拓撲排序 —— 否則它怎么知道哪個變量是不必要的?如果模型一開始就生成了「小李的蘋果有 7 個」,那就無法回頭,得不到最短解答。

圖片圖 3

那么,模型是如何學會「1 級推理」的?為此,作者對模型的內部參數進行了探針 probing 研究(見圖 4)。結論顯示(具體探針方法詳見論文),在模型生成第一句話之前,它已經通過心算確定了哪些變量 A 是「必要的」(nece (A)=True)。同時,模型在說每句話之后,也心算出了接下來所有「可計算的」的變量 A(cannext (A)=True)。因此,模型只需對 nece 和 cannext 不斷進行邏輯與(AND)運算,就能從葉子節點開始,一步步給出完整的計算過程。

值得注意的是,這些復雜的心算能力并沒有顯現在訓練集中。模型只接觸過 iGSM 數據,只見過「語言」部分(題目和答案),但它卻自主學會了類似人類的思維過程(mental process),并得出了最優解!換言之,這項研究反駁了我們一周前在《語言≠思維,大模型學不了推理:一篇 Nature 讓 AI 社區炸鍋了》中的報道,用科學方法證明了大模型通過語言確實能學會思維

更神奇的是,模型學到的不止如此。在圖 4 中,作者還發現模型會心算許多對解題無用的信息。比如,在變量關系剛被描述完,甚至在問題尚未提出之前,模型已經知道任意兩個變量 A 和 B 之間是否存在遞歸依賴 —— 即使這些變量與解題無關。對人類來說,我們通常會從問題開始反推,忽略不必要的變量,而 GPT-2 這樣的語言模型則會將整個關系圖梳理一遍,以應對將來可能被問及的任何問題。作者將這種能力稱為「2 級推理」。

雖然「2 級推理」對解題不必須,但它確實是一種更通用的技能。模型利用并行能力,對信息進行大量因果梳理。這一能力是語言模型在學習解題中自行掌握的,沒有人 (數據) 教過它這么做。作者猜測,這或許是通用人工智能(AGI)中「通用」一詞的潛在來源,即語言模型可以超越數據集所教的技能,學會更為通用的能力。

圖片圖 4

接下來,作者研究了模型為何會犯錯。總結來看,在 iGSM 數據集上,模型幾乎只會犯兩類錯誤:一是計算不必要的變量,二是計算當前不可算的變量,如圖 5 所示。

對于前者,作者發現,如果模型在生成答案之前就心算出錯,誤認為某個變量 A 是 「必要的」(nece (A)=True),那么模型在生成答案時很可能會對 A 強行計算,從而產生非最短解答。這一發現非常有趣,它表明許多錯誤是系統性的,在生成第一個 token 之前,模型還沒張嘴就可以確信它會犯錯(通過探針的方法)。這類錯誤與模型生成過程中的隨機性或 beam search 無關。

至于后者,作者也將其歸因于心算錯誤,并將用一整篇的后續 Part 2.2 論文,來針對性提高模型的心算能力,以最終提高解題正確率。該論文尚未發布,我們會在公眾號中繼續關注并報道。

圖片圖 5

下一個結論是,作者反駁了大模型縮放定律(scaling law)中強調的「唯大獨尊」,即模型的表現只與參數數量相關,而與寬度或深度無關。這一觀點最早由 OpenAI 的縮放定律論文提出,并在后續幾乎所有研究中得到遵循。

作者通過 iGSM 數據集進行了一個可控實驗,如圖 6 所示。通過對比更小更深的模型與更大更寬的模型,發現對于解決 iGSM 中的數學題,模型的深度顯然比寬度更為重要。例如,一個 20 層、9 個 head 的模型,表現遠好于 4 層、30 個 head 的模型,盡管后者有兩倍的參數。

更進一步,作者發現對深度的依賴源于模型心算的復雜性。通過對模型不同深度的探針研究,作者發現,對于那些與問題較遠的變量 A,心算 nece (A) 往往需要更多層數。具體來說,若變量 A 與問題變量的距離為 t,則需要進行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的層數也越多,如圖 6 所示。

作者強調,模型對深度的依賴無法通過思維鏈(Chain-of-Thought, CoT)來抵消。事實上,iGSM 中的數學題解已經盡可能地使用了 CoT,即所有計算都被拆解為一步一步。即便如此,模型仍需要通過心算來規劃 CoT 的第一步該算什么 —— 這個心算過程可能依然需要多個步驟。這解釋了模型對深度依賴的原因。

圖片圖 6

綜上所述,與 99% 以上的研究 LLM 行為過程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數學問題時的心理過程(mental process),為理解 LLM 的智能提供了新的視角。

文章最后作者指出,即便是 GPT-4,在 iGSM 數據集上也只能進行最多 10 步的推理。這表明,即使是當前最強的模型,利用了據稱所有的互聯網數據,仍無法精準地完成超過 10 步推理。這暗示現有大模型使用的預訓練數據集(pretrain data)可能還有很大的改進空間。通過本文的方法,建立人工合成數據來增強模型的推理能力以及信息梳理能力,或許是一種新的可能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-09 09:00:00

2010-03-01 15:08:05

WCF單向操作

2010-03-11 14:13:20

Python編程

2023-03-27 08:17:48

2025-04-21 08:42:00

模型開源AI

2013-03-20 10:05:01

英特爾逆襲ARM

2023-02-06 14:37:44

LeCun模型

2025-05-21 08:47:00

2016-07-15 10:37:37

云性能云計算

2024-03-07 13:23:20

谷歌模型Sora

2010-07-22 16:50:00

2025-01-16 08:40:00

2025-06-20 09:19:19

2025-11-24 08:50:00

AI大模型智能

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-11-29 08:10:59

2023-11-26 17:54:00

AI科學

2023-05-25 13:59:12

ChatGPT模型

2020-02-11 17:17:54

RSAC信息安全會議RSA大會

2022-02-13 08:36:46

數字人民幣支付寶微信錢包
點贊
收藏

51CTO技術棧公眾號

国产日韩欧美一二三区| 欧美aaaaa级| 国产suv一区二区三区88区| 国产在线98福利播放视频| 国产激情久久| 亚洲精品动漫100p| 欧美aaa免费| 欧美乱熟臀69xxxxxx| 亚洲日本aⅴ片在线观看香蕉| 欧美第一页浮力影院| 国产激情欧美| 亚洲女人天堂网| 性xxxxfreexxxxx欧美丶| 欧美一二三区在线| 免费看a在线观看| 亚洲综合中文| 国产精品丝袜久久久久久不卡| 欧美综合二区| 免费观看成人在线| 色综合久久一区二区三区| 欧美极品少妇xxxxx| 丰满女人性猛交| 久色婷婷小香蕉久久| 精品少妇人欧美激情在线观看| bt7086福利一区国产| 亚洲精品欧美极品| yellow91字幕网在线| 亚州精品一二三区| 91免费国产在线| 国产成人午夜精品| 91精品在线观看入口| 九色成人搞黄网站| 国产精品中文字幕久久久| 9国产精品视频| 日韩视频第二页| 精品免费在线观看| 激情网站在线| 国模吧一区二区| 国产成人三级| 成人av播放| 国产午夜亚洲精品理论片色戒| 小草在线视频在线免费视频| 亚洲女人天堂色在线7777| 开心激情综合| 亚洲国产一区二区精品视频| 欧美高清一级片在线观看| 三级无遮挡在线观看| 亚洲成年人影院在线| 99re6热只有精品免费观看| 不卡一卡2卡3卡4卡精品在| 国产成人在线视频网站| 国产欧美一区二区三区沐欲| 亚洲品质自拍视频| www.综合| 国产亚洲情侣一区二区无| 亚洲欧美另类小说视频| 男人的天堂在线视频免费观看| 91高清视频免费观看| av资源站一区| 激情av在线播放| av日韩免费电影| 欧美日韩一区二区在线观看视频| 懂色av色香蕉一区二区蜜桃| 日本一区午夜艳熟免费| 三级精品视频久久久久| 91色porny在线视频| 亚洲日本在线观看视频| 久久亚洲a v| 韩日欧美一区| 国产福利成人在线| 亚洲欧美一区二区三区国产精品| 精品自拍视频| 亚洲另类第一页| 国产成人极品视频| 五月综合激情日本mⅴ| 欧美国产小视频| 黄色免费在线看| 亚洲一区高清| 亚洲午夜激情免费视频| 国产女主播视频一区二区| 日韩三区在线| 女人被爽到呻吟gif动态图下载| 国产精品高精视频免费| 日韩欧美黄色动漫| 久久在线精品| 韩国成人漫画| 4480yy私人影院高清不卡| 99国产盗摄| 亚洲精品美女久久久久| 国产午夜精品久久久久久免费视| 一本一道久久综合狠狠老精东影业| 欧美特大特白屁股xxxx| 日韩在线免费看| free亚洲| 精品少妇在线视频| 国产女人水真多18毛片18精品| 青青在线视频一区二区三区| 97婷婷大伊香蕉精品视频| 久久精品国产精品亚洲精品色| 精品制服美女久久| 欧洲一级在线观看| 91久久精品国产91性色| 18免费在线视频| 中文字幕亚洲欧美日韩高清| 日产精品一区二区| 嫩草av久久伊人妇女超级a| 国产91|九色| 欧美激情二区| 日韩视频一二三| 久久影院在线观看| 一本大道综合伊人精品热热| 午夜在线精品偷拍| 久久久精品在线视频| 国产福利视频一区二区| 在线成人av影院| 国产乱人伦偷精品视频免下载| 亚洲福利天堂| 亚洲伊人久久综合| 亚洲理论在线a中文字幕| 久久精品男人天堂av| 99久精品视频在线观看视频| 91美女主播在线视频| 免费看黄视频网站| 日韩欧美一区二区三区久久婷婷| 中文字幕在线精品| 日韩欧美一区二区三区| 高潮精品一区videoshd| 亚洲破处大片| 欧美高清一级片| 成人影院www在线观看| 免费男女羞羞的视频网站中文字幕| 精品午夜一区二区| 7777免费精品视频| 国产亚洲一级高清| 日韩一区二区精品葵司在线| 亚洲精品国产成人久久av盗摄| 国产自产2019最新不卡| 欧美视频在线观看| 国产白丝袜美女久久久久| 免费亚洲精品视频| 国产精品专区一| 91超碰caoporn97人人| 色一区av在线| 精品乱人伦小说| 欧美视频一区二区在线观看| 亚洲一线二线三线视频| 国产视频一区在线观看| 国产凹凸在线观看一区二区| 中文字幕无码不卡免费视频| 日韩免费福利视频| 最新欧美日韩亚洲| 动漫精品视频| 国产91aaa| 久久久影院一区二区三区| 国产91视觉| 日本视频精品一区| 亚洲日本一区二区三区在线不卡| 亚洲成人蜜桃| 麻豆md0077饥渴少妇| 亚洲五月六月| 成人免费观看视频在线观看| 黄色www网站| 激情网站五月天| 国产黄视频在线观看| www.亚洲视频| av亚洲一区| 99精品热6080yy久久| 99久热这里只有精品视频免费观看| 91嫩草国产线观看亚洲一区二区| 综合视频一区| 精品中文一区| 欧美日韩理论| 欧美另类综合| 国内精品自线一区二区三区视频| 国产精品试看| 国产精品免费看一区二区三区| av成人午夜| 欧美日韩一区二区三区电影| 成人在线免费播放视频| 麻豆传媒在线免费| 丁香一区二区| 久久av一区二区三区| 久久久久国产精品一区三寸| 99视频超级精品| 欧美日韩色一区| 韩国欧美亚洲国产| 日韩免费在线观看av| 激情在线小视频| 亚洲天堂资源| 一区二区三区午夜探花| 国产91丝袜在线观看| 久久久国产一区二区三区四区小说 | 欧美色图亚洲自拍| 日韩免费一级视频| 午夜小视频福利在线观看| 亚洲精品男同| 1024成人网| 欧美成人猛片aaaaaaa| 欧美精品久久一区二区| 久久久性生活视频|