国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI慢思考蒸餾進快思考,Llama2躍升至GPT-4水平,不寫過程也能做對題

人工智能
研究人員通過把AI的“慢思考”結果蒸餾進“快思考”,讓Llama2表現提升了257%,變得比GPT4還能打,同時還能降低推理成本。

《思考快與慢》中人類的兩種思考方式,屬實是被Meta給玩明白了。

研究人員通過把AI的“慢思考”結果蒸餾進“快思考”,讓Llama2表現提升了257%,變得比GPT4還能打,同時還能降低推理成本。

圖片

這里的快慢兩種思考方式,指的就是2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼推廣的系統1和系統2——

簡單說,系統1是簡單無意識的直覺,速度更快;系統2則是復雜有意識的推理,準確性更強。

Meta所做的“蒸餾”,就是用系統2生成數據,然后對用系統1推理的模型進行微調。

有網友看了后表示,這種模式和人類很像,一旦解決了一個難題,再解決(相似的問題)就變得簡單了。

圖片

將系統2蒸餾到系統1

對于大模型而言,模仿人類的“系統2”的方式有很多種,在模型中所處的環節也不盡相同,這里作者一共研究了四種:

  • CoT,即Chain of Thought,思維鏈,從提示詞入手讓模型逐步思考。
  • S2A,即System 2 Attention,由Meta自己提出,直接修改了模型的注意力機制,屏蔽與任務無關的信息。
  • RaR,即Rephase and Respond,先對問題進行重新表述,再根據重述后的問題生成答案。
  • BSM,即Branch-Solve-Merge,將復雜任務分解為多個分支,針對每個分支獨立生成評分,再將各個分支的評分綜合。

圖片

但從整體流程上看則是殊途同歸,各種“系統2方法”都會在未標注數據集上生成推理結果。

在這過程當中,模型會在給出結果的同時生成詳細的中間推理步驟,但研究人員只保留最終的輸出結果。

然后就得到了輸入-系統2輸出的數據對,可以視為一種無監督的“偽標簽”,將這些數據對收集起來,就形成初步的蒸餾數據集。

當然了,這步得到的數據還不能直接拿來微調系統1模型,需要進行過濾以確保其擁有足夠高的質量。

過濾的具體依據,是一致性和魯棒性。

一致性篩選當中,對每個輸入樣本,都會用系統2模型采樣生成多個輸出,然后通過多數投票等方法進行比較,如果大多數都一致,則認為該輸出是可靠的;

魯棒性篩選是對一個輸入樣本進行適當的擾動,如改變無關細節、調整詞序等,然后觀察系統2模型在擾動前后的輸出是否一致。

篩選后的高質量蒸餾數據,就可以對系統1模型進行無監督微調了。

微調過程可以看作是一種知識蒸餾,但又與與傳統的知識蒸餾不同,這里兩種系統使用的是同一個基礎模型。

系統1模型的目標是直接學到系統2模型的輸出行為,而不是中間的復雜推理過程,在后續推理時也不需要執行系統2的推理步驟,而是直接生成輸出。

但從輸出質量上來看,表現卻能接近系統2模型,也就是實現了系統2能力向系統1的轉移。

那么,為什么要專門收集數據去微調系統1模型,而不直接用系統2模型推理呢,作者也給出了解釋。

道理其實很簡單,從系統2的另一個名字“慢系統”當中,很容易就能看出答案:

因為系統2的速度慢,在實時交互、移動設備部署等場景下,模型的延遲可能是無法接受的。

另外,由于需要輸出完整的推理過程,系統2輸出的token長度也是系統1的數百倍。

就像開頭那位網友說的,系統2把復雜的推理解決了,再將數據喂給系統1,問題對其而言也會變得容易。

從表現上看,這樣的模式也確實讓系統1模型的表現大幅進步,甚至超過了真·系統2模型。

讓Llama2超越GPT-4

針對前面四種不同的系統2方法,研究人員分別使用不同的數據集,在不同的任務上進行了測試。

針對BSM方法,作者采用的數據集是Open Assistant 2和MT-bench,評估了模型作為“評判者”時的表現。

可以看到,在兩個數據集中,Llama-2的表現(人類一致性)分別從32.0%和28.1%,提高到了58.4%和72.4%,最高增幅達到了257%,比CoT方法更加有效。

而且,微調后的模型均超過了系統1版的GPT-4,甚至達到了GPT-4配合CoT的水準。

同時(改變選項位置后的)不一致性也大幅降低,而且和系統2相比,Token數量少到幾乎可以忽略不計。

圖片

同時針對MT-Bench不同的子類任務,作者也分別分析了各種方法的人類一致性。

圖片

接下來是S2A方法,它主要解決的是模型偏見問題,因此評估時采用了帶偏見的TriviaQA任務。

結果蒸餾后的準確率達到81.3%,超過了原始S2A的76%,生成的token數量也從147個減少到了56個。

圖片

RaR的測試目標則是完成一些推理任務,這里作者測試了Last letter concatenation和Coin flip。

在Letter任務中,蒸餾后的系統模型準確率從30%飛升到了98%,也超過了系統1自蒸餾的69.5%,同時也優于原始的RaR方式。

而在Coin flip任務里,蒸餾后的準確率達到 75.69%,也與接近2-步原始RaR的77.2%接近,但生成的token數量大幅減少。

圖片

不足的一點是,CoT的蒸餾效果與另外三種大相徑庭,作者發現,在數學推理任務上,CoT的推理能力很難遷移到系統1當中。

在GSM8K數據集上,蒸餾后的模型在k=1時準確率僅為7.13%,k=10時也只有7.35%,甚至不如沒蒸餾之前的版本。

圖片

所以,作者認為,接下來的研究目標是進一步明確這種蒸餾的應用場合,找到更類似于人類學習的方式。

論文地址:https://arxiv.org/abs/2407.06023

參考鏈接:https://x.com/emollick/status/1810659417634869610。

責任編輯:姜華 來源: 量子位
相關推薦

2023-07-25 09:23:23

Llama 2GPT-4

2024-02-07 12:13:03

AI模型

2025-05-08 02:02:02

2023-08-21 10:36:23

2023-08-11 13:17:12

AI模型

2023-12-11 12:46:42

GPT-4LLaMA2模型

2023-09-11 15:57:16

人工智能模型GPT-4

2024-04-19 10:32:08

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-07-19 11:43:59

AIGPT-4

2023-05-29 09:29:52

GPT-4語言模型

2024-01-12 19:07:26

GPT-4AI產品

2023-06-08 11:27:10

模型AI

2023-08-25 13:12:59

AI開源

2023-09-11 13:28:00

AI模型

2025-05-30 07:40:56

2023-08-15 15:03:00

AI工具

2023-07-24 14:26:58

OpenAIGPT-4Karpathy

2023-08-01 14:07:05

模型AI
點贊
收藏

51CTO技術棧公眾號

国产综合福利在线| 久久资源免费视频| 国产.欧美.日韩| 国产精品分类| 北条麻妃69av| 成人av在线电影| 香蕉大人久久国产成人av| av官网在线播放| 色视频www在线播放| 国产精品av免费观看| 日韩欧美一二三四区| 成人午夜看片网址| 午夜一区不卡| 日韩av密桃| av一区在线| 黄页免费欧美| 秋霞在线一区| 狠色狠色综合久久| 国产欧美一区二区三区鸳鸯浴| 女同另类激情重口| 美女视频黄 久久| 国产校园另类小说区| 亚洲欧美日韩国产成人精品影院| 国产精品色哟哟| 国产曰批免费观看久久久| 久久久国产精品麻豆| 欧美精品久久99| 成人一区二区三区中文字幕| 久久精品国产亚洲高清剧情介绍| 亚洲第一精品影视| 97色成人综合网站| 亚洲在线观看| 国产精品一区二区男女羞羞无遮挡| 91精品电影| 亚洲成人影音| 日韩1区2区3区| 国产乱子伦视频一区二区三区| 九九综合九九| 久久精品日产第一区二区三区高清版| 国产调教视频一区| 国产一区91精品张津瑜| 欧美性极品xxxx娇小| 国产精品区一区二区三区| 亚洲电影第1页| 久久五月天综合| 国产原创欧美精品| 日本一区视频在线观看| av免费观看网| 欧美日韩亚洲在线| 国产在线中文字幕| 福利成人导航| 91精品网站在线观看| 亚洲免费福利一区| 丝袜美腿亚洲一区二区图片| av中文字幕一区| 精品成人一区二区三区| 91精品视频网| 亚洲一区二区三区自拍| 精品久久久久久| 亚洲欧美制服中文字幕| 成人免费在线视频网址| 亚洲天堂网一区| 99国内精品久久久久| 99久久精品一区| 欧美一区二区三区在线| 成人欧美一区二区三区黑人| 四虎免费av| 免费看成年人视频在线观看| 色综合888| 羞羞网站免费观看| 亚洲s色大片| 依依综合在线| 午夜亚洲激情| 婷婷综合伊人| 亚洲色图第一区| 色一区av在线| 天堂资源av| 北条麻妃国产九九九精品小说| 亚洲国产精品二十页| 久久成人人人人精品欧| 99视频在线播放| 国产原创av在线| 欧美精选在线| 欧美国产成人精品| 欧美一区二区播放| 91|九色|视频| 成人亚洲成人影院| 激情在线小视频| 亚洲美女少妇无套啪啪呻吟| 性久久久久久久久| 亚洲最大的免费| 欧美日韩伦理片| 欧美成人资源| 深夜成人在线| 国产精品12| 欧美日韩在线一| www.欧美.com| 亚洲444eee在线观看| 欧美裸体xxxx极品少妇| 伊甸园精品99久久久久久| 色综合久久影院| 亚洲黄色免费| 国产欧美一二三区| 久久国产精品久久久久久久久久 | 国产日本欧美在线| 午夜欧洲一区| 一区三区二区视频| 亚洲视频一区二区免费在线观看| 97超碰色婷婷| 99爱在线视频| 337p粉嫩大胆噜噜噜噜噜91av| 日韩亚洲成人av在线| 免费观看国产精品视频| 九九视频精品全部免费播放| 欧美日韩高清一区二区| 国产精品久久国产| 欧美三区在线| 性欧美在线看片a免费观看| 香蕉视频在线免费| 亚洲三级网站| 一区二区成人精品| 中文在线8资源库| 精品久久一二三| 91精品产国品一二三产区| 奇米色777欧美一区二区| 91精品国产福利在线观看| 黄色a级片免费| 狠狠色综合网| 欧美激情中文字幕乱码免费| 国产精品实拍| 国产精品天天摸av网| 久久精品五月婷婷| 日韩一级淫片| 欧美专区日韩专区| 男女曰b免费视频| 国内自拍一区| 91精品国产免费久久久久久| 国产美女高潮在线| 日韩国产精品久久久| 欧美成人免费大片| 天堂中文8资源在线8| 欧美国产亚洲另类动漫| 一本色道久久综合亚洲二区三区| 欧美 日韩 国产 激情| 国产福利91精品| 国产免费一区二区三区四在线播放| 亚洲欧洲日本mm| 久久国产精品高清| 国产成都精品91一区二区三| 国产一二三区av| 亚洲最大av| 日韩一区二区三区国产| а√天堂中文在线资源8| 中文字幕第一区综合| 极品裸体白嫩激情啪啪国产精品| 自拍av一区二区三区| 蝌蚪视频在线播放| 久久亚洲精华国产精华液| 亚洲www在线| 午夜dj在线观看高清视频完整版| 国产精品久久久久一区| 在线观看视频色潮| 国产精品毛片无遮挡高清| 狠狠色伊人亚洲综合网站色| 国产精品一二| 久久久精品视频成人| 免费网站在线观看人| 7777精品伊人久久久大香线蕉超级流畅 | 亚洲男人的天堂网| 欧美岛国激情| 国产日韩欧美电影在线观看| 在线成人超碰| 久久精品99国产精品日本| 亚洲国产欧洲综合997久久 | 国产一区二区观看| 欧美理论电影在线播放| 国产乱码精品一区二区三区亚洲人| 亚洲欧美国产精品久久久久久久 | 香蕉视频在线观看免费| 国产精品久久久久aaaa樱花| 黄色三级在线观看| 色婷婷精品久久二区二区蜜臀av| av中文在线资源库| 国产精品一区二区久久久| 日本综合视频| 在线一区二区视频| 91在线网址| 亚洲精品久久久久中文字幕二区| 久久九九国产精品| 欧美极品一区二区| 九九热hot精品视频在线播放| 国产视频综合在线| 人成免费电影一二三区在线观看| 久久久综合九色合综国产精品| 久久久久久久中文| 成人国产在线观看| 黄www在线观看| 蜜桃视频在线观看一区| 国产真人做爰毛片视频直播 | 日韩电影在线观看一区|