国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

重要的事情說兩遍!Prompt「復讀機」,顯著提高LLM推理能力

人工智能
盡管大模型能力非凡,但干細活的時候還是比不上人類。為了提高LLM的理解和推理能力,Prompt「復讀機」誕生了。

眾所周知,人類的本質是復讀機。

我們遵循復讀機的自我修養:敲黑板,劃重點,重要的事情說三遍。

but,事實上同樣的方法對付AI也有奇效!

有研究證明,在提問的時候故意重復一遍——也就是復制粘貼,即可顯著提高LLM的推理能力。

圖片圖片

論文地址:https://arxiv.org/pdf/2309.06275

看下面的例子:

圖片圖片

作者認為,通常情況下,問題中的重點token(比如這里的tennis balls)無法看到位于它后面的token(上圖)。

相比之下,使用重讀(re-reading,RE2)的方法,允許「tennis balls」在第二遍中看到自己對應的整個問題(How many tennis balls does he have now?),從而達到雙向理解的效果(下圖)。

圖片圖片

實驗表明,在14個數據集上的112個實驗中,RE2技術都能帶來一致的性能提升,無論是經過指令調整的模型(如ChatGPT),還是未經調整的模型(如Llama)。

實踐中,RE2作為獨立的技巧,可以與CoT(Let’s think step by step)以及自我一致性方法(self-consistency,SC)一起使用。

下表展示了混合應用多種方法對模型效果的影響。盡管自我一致性聚合了多個答案,但重讀機制仍然有助于大多數場景的改進。

圖片圖片

接下來,在GSM8K數據集上(使用ChatGPT)進一步研究輸入問題復雜性對CoT和RE2提示的推理性能的影響。

這里通過計算真實解釋中存在的推理步驟來衡量問題的復雜性,結果如下圖所示。

圖片圖片

隨著問題復雜性的增加,所有提示的表現通常都會下降,但重讀的引入提高了LLM應對各種復雜問題的表現。

此外,作者還計算了各代和輸入問題之間的覆蓋度,證明RE2增加了輸出解釋中的n-gram (n=1,2,3,4) 召回率。

重要的事情說2遍

現有的推理研究主要集中在設計多樣化引導提示,而對輸入階段的理解卻很少受到關注。

事實上,理解是解決問題的第一步,至關重要。

當今大多數LLM都采用單向注意力的decoder-only架構 ,在對問題進行編碼時,單向注意力限制了token的可見性,這可能會損害對問題的全局理解。

怎么解決這個問題?作者受到人類習慣的啟發,嘗試讓LLM把輸入再讀一遍。

與引導模型在輸出中推理的CoT不同,RE2通過兩次處理問題將焦點轉移到輸入,促進了單向解碼器的雙向編碼,從而增強LLM理解過程。

圖片圖片

上圖為GSM8K數據集上測試的注意力分布圖,較暗的單元格表示較高的注意力。

上虛線三角形內的區域表明,第二遍輸入中的每個token都明顯關注第一遍中的后續token,證明LLM的重讀有望實現對問題的雙向理解。

從另一個角度考慮,重讀使LLM能夠為輸入編碼分配更多的計算資源,類似于水平增加神經網絡的深度。因此,擁有RE2的LLM對問題有更深入的理解。

普通推理

利用帶有CoT提示的LLM來解決推理任務,可以用公式表述為:

圖片圖片

其中,Cx表示提示輸入,來自帶有CoT提示指令的模板,z表示自然語言中的采樣基本原理。

因此, LLM可以將復雜的任務分解為更易于管理的推理步驟,將每個步驟視為整個解決方案鏈的組成部分。

RE2 推理

受到人類重讀策略的啟發,將上面的方程改寫為:

圖片圖片

所以RE2在實際應用中就是下面這種格式:

圖片圖片

其中{Input Query}是輸入查詢的占位符,左側部分可以包含其他引發思考的提示。

實驗

由于RE2的簡單性和對輸入階段的重視,它可以與各種LLM和算法無縫集成,包括few-shot、自我一致性、各種引發思考的提示策略等。

為了驗證RE2的有效性和通用性,研究人員在14個數據集上進行了112個實驗,涵蓋算術、常識和符號推理任務。

算術推理

實驗考慮以下七個算術推理基準:

數學應用題的GSM8K基準、具有不同結構的數學應用問題的SVAMP數據集、不同數學應用題的ASDiv數據集、代數應用題的AQuA數據集、三到五年級學生的加法和減法數學應用題、多步驟數學問題數據集,以及單次運算的初等數學應用題數據集。

圖片圖片

上表為算術推理基準測試結果。*處表示不使用任何技巧,但效果優于CoT提示的情況。

常識和符號推理

對于常識推理,實驗采用StrategyQA、ARC和CSQA數據集。

StrategyQA數據集包含需要多步驟推理的問題;

ARC數據集(ARC-t)分為兩個集合:挑戰集(ARC-c)和簡單集(ARC-e),前者包含基于檢索和單詞共現算法都錯誤回答的問題;

CSQA數據集由需要各種常識知識的問題組成。

實驗評估兩個符號推理任務:日期理解和Coinflip。日期理解是 BigBench數據集的子集,Coinflip是一個問題數據集,根據問題中給出的步驟,判斷硬幣翻轉后是否仍然正面朝上。

圖片圖片

結果表明,除了普通ChatGPT上的某些場景之外,具有簡單重讀策略的RE2,持續增強了LLM的推理性能。

RE2展示了跨各種LLM的多功能性(Text-Davinci-003、ChatGPT、LLaMA-2-13B和LLaMA-2-70B),涵蓋指令微調 (IFT) 和非IFT模型。

作者還對RE2在零樣本和少樣本的任務設置、思維引發的提示方法以及自洽設置方面進行了探索,突出了其通用性。

Prompting

實驗嚴格評估RE2模型在兩種基線提示方法上的性能:Vanilla(不添加特技)和CoT(通過逐步的思維過程來指導模型)。

圖片圖片

針對不同的任務,作者在提示中設計了答案格式指令,以規范最終答案的結構,便于精確提取答案。

圖片圖片

實驗的解碼策略使用貪婪解碼,溫度設置為0,從而產生確定性輸出。

最后探索一下問題重讀次數對推理性能的影響:

圖片圖片

上圖展示了兩個不同的LLM的表現如何隨問題重讀次數的變化而變化。我們可以發現重讀2次使性能提高,之后隨著問題重讀次數增加,性能開始下降。

猜測原因有兩個:i)過度重復問題可能會起到示范作用,鼓勵LLM重復問題而不是生成答案,ii)重復問題會顯著增加推理和預訓練之間的不一致。

參考資料:https://arxiv.org/pdf/2309.06275


責任編輯:武曉燕 來源: 新智元
相關推薦

2025-03-24 11:01:41

2017-12-26 14:17:24

潤乾報表

2023-11-03 13:07:00

AI模型

2025-10-20 02:11:00

2011-11-01 09:31:16

寫代碼程序需要進化

2014-06-20 09:35:09

產品經理

2009-03-13 15:32:49

程序員論文架構師

2024-07-05 15:06:00

2024-07-08 06:30:00

2023-02-09 15:48:15

模型研究

2025-03-07 09:34:14

2025-05-30 10:50:27

2024-12-23 07:20:00

LLM逆向思維語言模型

2025-04-24 10:26:40

2025-03-03 09:40:00

2025-10-10 02:00:00

2025-12-08 08:57:00

AI大模型訓練

2025-05-08 02:02:02

2023-09-01 15:22:49

人工智能數據

2024-02-26 07:43:10

大語言模型LLM推理框架
點贊
收藏

51CTO技術棧公眾號

91麻豆视频网站| va中文字幕| 91xxx在线观看| 久久久久久久尹人综合网亚洲 | 欧美视频一区二区| 91视频免费网站| 中文幕av一区二区三区佐山爱| 日韩电影中文字幕在线| 国产男女在线观看| 精品成人在线观看| 牛牛国产精品| 一个人看的免费视频色| 国产专区精品视频| 国产精品少妇自拍| 国产精品xxx在线观看| 国产精品草草| 热久久最新地址| 狠狠色丁香婷综合久久| 日韩av在线第一页| 国产精品久久久久一区二区三区共| 91中文在线视频| 日本精品三区| 成人aa视频在线观看| 色欲色香天天天综合网www| av理论在线观看| 欧美zozozo| gogo在线观看| 正在播放国产一区| 日本欧美一区二区三区| 日韩欧美xxxx| 国产精品9999| 欧美一级生活片| 国产福利不卡视频| 狠狠色综合欧美激情| 伊人影院久久| 免费网站永久免费观看| 影音先锋亚洲电影| 国产精品免费网站| 欧美日韩精品一区二区视频| 欧美三级韩国三级日本一级| 久久久久久久久久福利| 日韩福利视频导航| 亚洲国产午夜伦理片大全在线观看网站 | 小草av在线播放| 欧美日产在线观看| 第四色婷婷基地| 九色精品免费永久在线| 久久五月激情| 男女曰b免费视频| 欧美华人在线视频| 日韩电影在线一区二区| 欧美专区一二三 | 欧美第一区第二区| 国产啊啊啊视频在线观看| 日韩av一区二区三区美女毛片| 在线观看视频91| 妞干网免费视频| 亚洲国产一区二区三区| jizzjizz亚洲| 欧美精品1区2区3区| 国产精品色视频| 免费日韩电影| 欧美色中文字幕| 日韩影视在线| 亚洲级视频在线观看免费1级| 久久国产精品高清| 91高清在线观看视频| 日韩在线视频一区| 欧美性www| 国产精品久久久久久av| 精品91免费| 成人小视频在线观看| 天堂在线视频中文网| 久热在线中文字幕色999舞| 都市激情亚洲欧美| 久久伊人一区二区| 欧美国产1区2区| 色av手机在线| 人妖精品videosex性欧美| 日韩精品亚洲专区| 理论片播放午夜国外| 精品国产三级电影在线观看| 日韩成人视屏| 一区二区三区在线观看视频| 里番在线播放| 国产精品免费一区豆花| 国产乱色国产精品免费视频| 性xxxx丰满孕妇xxxx另类| 日韩有码在线播放| 日韩亚洲国产欧美| 2019中文字幕视频| 日韩成人久久久| 欧美激情自拍| 四虎免费av| 亚洲人成毛片在线播放| 亚洲国产影院| 中文字幕福利片| 久久99精品国产99久久6尤物 | 国内自拍视频网| 亚洲精品少妇网址| 欧美日本精品| 免费看av大片| 成人精品国产一区二区4080 | 亚洲精品国产高清久久伦理二区| 成人看片网页| 亚洲精品视频一区二区三区| 在线观看成人小视频| 精品一区二区三区中文字幕老牛| 久草青青在线观看| 亚洲男人的天堂网站| 日韩电影免费在线看| 91看片在线观看| 不卡的av一区| 91国偷自产一区二区使用方法| 成人高清电影网站| 最近中文字幕mv第三季歌词 | 一区二区三区四区在线播放 | 91午夜国产| 久久成人av网站| 福利一区在线观看| 亚洲第一影院| 日韩中文字幕在线不卡| 精品香蕉在线观看视频一| 秋霞午夜av一区二区三区| 亚洲国产激情av| 成人高清视频在线观看| 亚洲欧洲中文字幕| 蜜臀va亚洲va欧美va天堂| xxxxx91麻豆| 久久高清国产| 18在线观看的| 亚洲春色综合另类校园电影| 精品久久久久香蕉网| 天堂久久久久va久久久久| 日本免费中文字幕在线| 日韩av影视综合网| 亚洲欧美日韩网| 五月天中文字幕一区二区| 国产探花一区| 情趣网站在线观看| 亚洲欧美日本另类| 国产黄色在线免费观看| 热久久99这里有精品| www国产成人免费观看视频 深夜成人网| 欧美美女色图| 国产精品欧美亚洲777777| 国产一区二区三区精品欧美日韩一区二区三区 | 欧美日韩精品综合| 4444欧美成人kkkk| 精品久久一区二区| 欧美日韩日日夜夜| 亚洲视频在线观看三级| 国产suv一区二区三区88区| 亚洲小说图片视频| 成人在线啊v| 91精品国产91久久久久久最新毛片| 国内精品伊人久久久久av影院| 亚洲破处大片| 国产精品美女久久久久久久久久久| 欧美特黄一级大片| 国产美女高潮在线观看| 日本不卡二区| ...av二区三区久久精品| 免费美女久久99| 麻豆精品精品国产自在97香蕉| 精品中文视频| 在线成年人视频| 热99这里只有精品| 一区二区三区在线视频111| 日韩一区不卡| 国产精品久久久久久麻豆一区软件 | 欧美视频网站| 亚洲男同gay网站| 蜜桃视频一区二区在线观看| 欧美极品xxxx| 黑人巨大精品欧美一区二区| 久久亚洲国产精品一区二区| 国产在视频一区二区三区吞精| 橘梨纱av一区二区三区在线观看| 精品日本一区二区| 中文字幕亚洲综合| 亚洲成人精品在线观看| 美洲天堂一区二卡三卡四卡视频| 精品国模一区二区三区欧美| 深夜视频在线免费| 国产精品三级一区二区| 国产精品视频久久久| 亚洲精品www久久久久久广东| 亚洲欧洲一区二区在线播放| 久久黄色影院| 亚洲婷婷丁香| 蜜臀久久精品| 在线免费观看你懂的| 久色视频在线播放| 久久久av水蜜桃| 91av视频在线观看| 日韩精品福利网站| 一本到不卡免费一区二区| 久久免费偷拍视频| 免费在线观看一区二区三区|