国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型邊推理邊糾錯,有可能做到嗎?這是ICML爆火的演講

人工智能 新聞
來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園團隊在最新的 arXiv 論文《語言模型物理學(xué) Part 2.2:如何從錯誤中學(xué)習(xí)》中,通過可控實驗,探索了讓模型「邊推理邊糾錯」的可能性。

即便是最強大的語言模型(LLM),仍會偶爾出現(xiàn)推理錯誤。除了通過提示詞讓模型進行不太可靠的多輪自我糾錯外,有沒有更系統(tǒng)的方法解決這一問題呢?

來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園團隊在最新的 arXiv 論文《語言模型物理學(xué) Part 2.2:如何從錯誤中學(xué)習(xí)》中,通過可控實驗,探索了讓模型「邊推理邊糾錯」的可能性。

他們在預(yù)訓(xùn)練中加入大量「錯誤的推理」和「錯誤的糾正」,展示了這類數(shù)據(jù)可以提高語言模型的推理準確性(無需提示詞,無需多輪對話)。文章還深入探討了許多細節(jié),例如(1)這種方法與 beam search 的區(qū)別,(2)如何準備此類數(shù)據(jù),(3)是否需要對錯誤進行掩碼,(4)所需的錯誤數(shù)量,(5)此類數(shù)據(jù)是否可用于微調(diào)等。

圖片

圖 1

作者首先展示了一個 GPT-4o 通過提示詞和多輪對話進行糾錯的示例(圖 2),可以看到成功率不高,而且需要很長的對話才能完成糾錯。那么,如果模型最終能糾錯,為什么不在第一次犯錯時「立即收回并改正」呢?

圖片

圖 2:GPT-4o 通過提示詞和多輪對話進行糾錯的實例

為此,作者使用探針(probing)方法研究模型的內(nèi)部工作機制。通過 Part 2.1 建立的 iGSM 數(shù)據(jù)集,作者發(fā)現(xiàn)當模型犯錯后,內(nèi)部參數(shù)常常表現(xiàn)出「很后悔」的狀態(tài),也就是說,模型可能已經(jīng)知道自己犯了錯,但「覆水難收」。

那么,能否簡單地讓模型「后悔即重試(retry upon regret)」?即,通過額外訓(xùn)練(如微調(diào))得到一個檢測錯誤的模型,只要該模型判定當前步驟有錯,就立即退格回到上一步驟的末尾,再重新生成呢?

如圖 3 所示,作者進行了橫向?qū)Ρ取<幢沐e誤識別率超過 99%,這種重試方法在 iGSM 數(shù)據(jù)集上也只能將推理正確率提高 2%(雖然比 beam search 好)。作者總結(jié)了此方法的三個不足。

首先,對正確率提高有限,畢竟退格后,模型依然是隨機生成,并沒有用高級的方法改錯。其次,對錯誤識別率的要求很高(同等條件下,需要 100% 錯誤識別率才能將推理正確率提高 8%,但這太不現(xiàn)實)。最重要的是,這并不能降低模型生成文本的時間復(fù)雜度,因為依然需要一次次地重新生成。

圖片

圖 3

接下來,作者更換方法,在預(yù)訓(xùn)練數(shù)據(jù)中加入大量的錯誤和糾正,例如「A=>B,哦我說錯了,應(yīng)該是 A=>C」。那么,這能否提升模型的推理正確率呢?乍一看,這似乎不合理,因為增加錯誤的同時,模型豈不是被迫學(xué)習(xí)說錯誤的話(即 A=>B)?是否需要將錯誤部分(譬如「A=>B,哦我說錯了,應(yīng)該是」這幾個字)通過掩碼(label masking)從訓(xùn)練標簽中刪除?

答案是不需要。依然通過 iGSM 數(shù)據(jù)集,作者用控制變量法,橫向?qū)Ρ攘酥T多參數(shù)后得出若干結(jié)論(圖 4)。

例如,即便預(yù)訓(xùn)練數(shù)據(jù)中的每道題目有 50% 的步驟包含錯誤,模型在測試階段并不會刻意犯錯(如使用 temp=0 生成時)。背后的原因與語言模型對語法的糾錯能力有關(guān),具體可參見作者的另一篇 Part 1 論文,因此不需要對錯誤進行掩碼。更神奇的是,在合理范圍內(nèi),訓(xùn)練集里的錯誤其實越多越好,例如包含 50% 錯誤的數(shù)據(jù),比 10% 錯誤的數(shù)據(jù)在 iGSM 數(shù)據(jù)集上還能再提升推理正確率 4 個百分點。

圖 4

接下來,作者研究了包含「錯誤和糾正」的數(shù)據(jù)能否作為微調(diào)數(shù)據(jù)使用。這是個重要問題,因為現(xiàn)有的開源大模型可能并不具備很好的糾錯能力。如果我們制備了完美的錯誤糾正數(shù)據(jù)集,能否通過少量參數(shù)微調(diào)(如使用 LoRA 方法)讓現(xiàn)有模型學(xué)會糾錯?

答案是否定的。如圖 5 所示,作者嘗試了多種 LoRA 參數(shù),發(fā)現(xiàn)最多只能將推理正確率從 78% 提高到 83%—— 甚至在大多數(shù)情況下,如 LoRA 的 rank 較小時,模型的正確率遠低于 78%。這說明「糾正錯誤」是一個高級能力,與模型的正常推理不同,需要大量參數(shù)變化才能實現(xiàn)。(這也合理,畢竟如果修改少量參數(shù)就能完成糾錯,那么讓模型「后悔即重試(圖 3)」恐怕早就能提高推理正確率了。)

相對而言,「錯誤識別」并不是高級能力,可以通過微量的 LoRA 微調(diào)學(xué)會。此外,通過 beam search 模型也能進行一定程度的重試,但對正確率的提升幾乎為零。綜合以上,作者認為,如果能制備優(yōu)質(zhì)的「錯誤和糾正」數(shù)據(jù),應(yīng)將此類數(shù)據(jù)放入預(yù)訓(xùn)練數(shù)據(jù)集中,而不是等到微調(diào)時再使用。

圖 5

最后,作者研究了在實際生活中如何制備「錯誤和糾正」數(shù)據(jù)。目前為止,文章都在 iGSM 數(shù)據(jù)集上進行可控實驗,由于此數(shù)據(jù)集中的數(shù)學(xué)題滿足統(tǒng)一格式,可以隨意刪減拼接,制作無限量的錯誤和糾正數(shù)據(jù)。這太理想化了。現(xiàn)實生活中,有沒有辦法在不要求理解題目的基礎(chǔ)上生成一些「假錯誤」

作者對此做了一些初步嘗試。例如,通過將解題步驟中靠后的第 Y 步驟挪到前面作為第 X 步的假錯誤,然后用原本的第 X 步作為糾正。這一方法在 iGSM 數(shù)據(jù)集上也能顯著提升正確率(從 78% 到 91%),如圖 6 所示。

圖 6

據(jù)此,作者大膽預(yù)測,盡管未來的 LLM 可能不會直接在 iGSM 數(shù)據(jù)上進行訓(xùn)練,但本文通過可控的對比試驗,研究了在通向 AGI 的道路上,我們需要對數(shù)據(jù)進行哪些修改和制備。

例如,利用像 Llama3-405B 這樣的模型來改寫數(shù)學(xué)題,在正確的解題步驟中插入許多錯誤 —— 甚至是簡單的假錯誤,也有望改變模型的答題方式。讓模型「邊推理邊糾錯」,而不是通過額外的提示詞被動糾錯,或許是一個新的思路。作者限于 GPU 限制,無法對如此方向做真實數(shù)據(jù)的大規(guī)模研究,但歡迎讀者沿著這一思路試試看。

最后,這篇 arXiv 論文是《語言模型物理學(xué)》系列作品中的 Part 2.2。此系列目前共 6 篇論文,在 ICML 2024 大會上做了 2 小時的演講,收獲諸多好評(圖 7)。有興趣了解整個系列作品的小伙伴,可以移步 https://www.bilibili.com/video/BV1Yw4m1k7nH

圖片

圖 7

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-08-05 10:20:00

LLM數(shù)據(jù)

2025-04-22 09:06:00

強化學(xué)習(xí)工具AI

2015-09-28 11:27:09

創(chuàng)業(yè)

2025-07-28 03:00:00

2025-06-05 03:00:00

AutoRefineRAGLLM

2023-04-21 10:33:42

2022-09-13 14:54:08

模型AI

2025-11-29 08:10:59

2023-07-05 13:56:50

2023-06-28 09:41:07

機器狗

2024-08-19 09:42:00

模型MIT

2012-05-01 20:26:01

iPhone

2020-12-02 10:20:33

Docker命令Linux

2020-03-31 09:53:08

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2025-11-07 09:16:02

2018-01-05 10:47:59

前端JavascriptWeb

2021-01-19 09:19:33

RPC調(diào)用過程框架

2009-12-18 11:15:17

ADSL寬帶共享上網(wǎng)

2025-03-11 08:50:00

2023-10-26 08:40:15

模型隱私推理
點贊
收藏

51CTO技術(shù)棧公眾號

欧美aⅴ一区二区三区视频| av电影在线网| jizz久久精品永久免费| 亚洲午夜影视影院在线观看| 99精品国产高清一区二区| h片在线观看视频免费免费| 国产精品视频免费| 久久99精品国产99久久| 国产视频网站一区二区三区| 欧美夫妻性生活| 黑巨人与欧美精品一区| 美国毛片一区二区| 国产精品一区二区三区毛片淫片| 国产黄色小视频在线| 亚洲高清999| 亚洲精品白浆高清久久久久久| 中文字幕乱在线伦视频乱在线伦视频| 久久99日本精品| 国产在线观看一区| 欧美在线亚洲| 欧美亚洲日本网站| 天天做天天躁天天躁| 丝袜亚洲另类丝袜在线| 日韩在线电影一区| 老司机午夜精品视频| 欧美极品色图| av动漫精品一区二区| 成人中文字幕在线观看| 大尺度一区二区| 国产在线一在线二| 中文字幕在线观看亚洲| 一区二区三区亚洲变态调教大结局 | 亚洲一二区在线| 久久精品亚洲麻豆av一区二区| 手机福利小视频在线播放| 亚洲一区二区三区四区中文字幕| 麻豆tv免费在线观看| 久久影院模特热| 老鸭窝亚洲一区二区三区| 成年网站在线播放| 色久综合一二码| 亚洲系列另类av| 欧美专区在线播放| 亚洲欧美色图| 欧美一级黄色录像片| 成人v精品蜜桃久久一区| 人善交video高清| 欧美日韩一区二区三区视频 | 国色天香一区二区| 樱花www成人免费视频| 欧美国产激情一区二区三区蜜月| www.国产91| 亚洲激情 国产| 欧美极品在线观看| 日本一区视频在线播放| 国产精品第13页| 久久日韩视频| 97av在线视频| 国产一本一道久久香蕉| 国产福利a级| 亚洲免费电影在线观看| 不卡中文一二三区| 国产av熟女一区二区三区| 欧美一区二区三区在线看| 日韩欧美中文字幕电影| 一区二区冒白浆视频| 亚洲一区二区四区蜜桃| 3d动漫一区二区三区在线观看| 亚洲综合中文字幕68页| 国产精品久久久久久久蜜臀| 国产v日韩v欧美v| 国产一区二区三区奇米久涩 | 国产精品国产精品| 中文字幕第一页久久| 高清不卡亚洲| 中文视频一区视频二区视频三区 | 久久婷婷人人澡人人喊人人爽| 一区二区三区高清| 91精品短视频| 成人免费观看cn| 这里只有精品视频在线| 国产+成+人+亚洲欧洲自线| av日韩中文| 欧美黑人在线观看| 中文字幕av一区二区三区谷原希美| 国产久卡久卡久卡久卡视频精品| 98色花堂精品视频在线观看| 久久久人人爽| 51久久夜色精品国产麻豆| 亚洲久久一区| 99在线播放| 国产精品入口芒果| 色综合五月天导航| 中文字幕一区av| 秋霞影视一区二区三区| 一线天粉嫩在线播放| 亚洲www永久成人夜色| 在线不卡中文字幕| a美女胸又www黄视频久久| 精品国产三级| 黄网站app在线观看大全免费视频| 成人欧美在线观看| 精品日韩99亚洲| 99热这里都是精品| 麻豆一区二区麻豆免费观看| 在线看国产视频| 手机在线观看国产精品| 神马久久久久久| 亚洲国产精品一区二区www在线| 日韩欧美伦理| 欧美精品总汇| 久久国产精品高清一区二区三区| 黄色录像特级片| 国产玖玖精品视频| 夜夜嗨av一区二区三区四区 | 91精品国产品国语在线不卡| 国v精品久久久网| 欧美福利在线| 在线视频亚洲欧美中文| 成人免费网址| 九色免费视频| 97超碰在线视| 精品国产二区在线| 国产z一区二区三区| 一本色道久久综合亚洲精品小说 | 日本韩国在线视频爽| 五月天激情视频在线观看| 亚洲高清乱码| 国语精品中文字幕| 亚洲一区久久久| 国产欧美久久一区二区| 欧美夫妻性视频| 一区二区三区亚洲| 亚洲美女视频网站| 欧美videofree性高清杂交| 欧美性猛片xxxx免费看久爱| 欧美午夜激情在线| 中文字幕一区二区三区乱码在线 | 亚洲男人天堂2023| 久久久人成影片一区二区三区观看| 亚洲同性gay激情无套| 国产拍揄自揄精品视频麻豆| 中文字幕欧美一| 4438x成人网最大色成网站| 精品国产在天天线2019| 欧美国产日韩免费| 国产欧美精品日韩| 久久久久久久久久久久久久久久久久av | 成人免费三级在线| 国产午夜精品久久久久久免费视| 国产日产精品一区| 亚洲地区一二三色| 欧美一区二区免费| 色青青草原桃花久久综合| 91国自产精品中文字幕亚洲| 国产精品网站视频| 日韩精品久久久毛片一区二区| 被灌满精子的波多野结衣| 成人网址大全| 日本视频不卡| 91丨精品丨国产| 国产真实久久| 99re这里都是精品| 欧美性jizz18性欧美| 日韩精品中文字幕在线| 国产91热爆ts人妖在线| 在线播放豆国产99亚洲| 久久久久久77777| 中文在线中文资源| 一区二区三区在线电影| 99精品久久99久久久久| 日本道精品一区二区三区| 欧美黄色免费网站| 日韩高清国产精品| 一卡二卡三卡亚洲| 亚洲欧美综合久久久久久v动漫| 视频在线不卡免费观看| 视频一区在线播放| 红桃成人av在线播放| 欧美在线va视频| 露出调教综合另类| 国产精品视频一区二区三区不卡 | 亚洲激情久久| 色欧美日韩亚洲| 4p变态网欧美系列| 国产伦精品一区二区三区四区视频_| 九色porny丨首页在线| 久久大逼视频| 亚洲国产成人精品电影| 一区二区三区四区视频在线观看 | 国产成人精品影视| 欧美日韩免费不卡视频一区二区三区 | 国产脚交av在线一区二区| 国产精品一二三在线观看| 狠狠狠综合7777久夜色撩人| 麻豆精品99| 99精品视频免费在线观看| 亚洲精品久久久久久久久久久久| 精品视频一区在线| 91最新在线|