国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊破解黑盒

人工智能 新聞
來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和優化策略。

DeepSeek-R1慢思考、長推理的表現,展現了訓練步驟增加,會導致長CoT的涌現。

它通過模擬人類思維逐步推導答案,提升了AI大模型的推理能力和可解釋性。

但長CoT的觸發條件是什么?怎么做能優化它?像個黑盒,還沒研究明白。

來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和優化策略。

先把該研究得出的4點發現給大家呈上來:

  • SFT并非必需,但能簡化訓練并提高效率;
  • 推理能力隨著訓練計算的增加而出現,但并非總是如此;
  • 可驗證獎勵函數對增長CoT至關重要;
  • 糾錯等核心能力基礎模型天生自帶,但通過RL有效地激勵這些技能需要大量的計算。

這篇論文開始被網友瘋轉,并被感慨道:這可太酷啦!

還有網友表示,不出所料,獎勵函數果然很重要

從SFT和RL兩方面研究長CoT

研究團隊明確表示:

我們的目標是揭開大模型中長CoT推理的神秘面紗。
通過系統分析和消融,提取關鍵見解,并提供實用策略來增強和穩定其性能。

團隊采用了2款基礎模型:

  • Llama-3.1-8B:來自Meta,是具有代表性的通用模型。
  • Qwen2.5-7B-Math:來自阿里通義,是具有代表性的數學專業模型。

同時采用了4個代表性推理基準:

MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k。

默認情況下,溫度t=0.7、頂部?p值=0.95,最大輸出長度=16384 tokens。

而具體過程,從SFT(監督微調)和RL(強化學習)兩方面下手。

研究人員默認使用MATH的7500個訓練樣本提示集來提供可驗證的真值答案。

SFT對長CoT的影響

團隊首先探究了SFT對長CoT的影響。

通過在長CoT數據上進行SFT,模型能夠學習到更復雜的推理模式。

但目前而言,短CoT更為常見,這就意味著針對其收集SFT數據相對簡單。

鑒于此,團隊選擇用阿里通義的QwQ-32B-Preview來提煉長CoT,用阿里通義的Qwen2.5-Math-72B-Struct來提煉短CoT

具體來說,研究人員先對每個prompt的N個候選響應進行采樣,然后篩選出具有正確答案的響應。

對于長CoT,使用N∈{32, 64, 128, 192, 256};對于短CoT,使用N∈{32, 64, 128, 256},(此處為了提高效率跳過了一個N)

在每種情況下, SFT標記的數量都與N成正比。

如下圖虛線所示,隨著擴大SFT的token,對長CoT進行SFT,會繼續提高模型準確性;而對短CoT來說,SFT帶來的效益在很早就達到飽和。

譬如在MATH-500上,長CoT SFT的準確率超過70%,tokens達到3.5B時仍然沒有進入瓶頸期。

相比之下,短CoT SFT的tokens從約0.25B增加到1.5B,準確率僅產生了3%的增長。

實驗結果顯示,長CoT SFT能夠顯著提高模型的性能上限。

而且,在達到更高性能的同時,還有比短CoT更高的性能拓展空間。

RL對長CoT的影響

由于業內普遍認為RL的上限高于SFT,團隊將長CoT和短CoT視為針對RL的不同SFT初始化方法進行比較。

研究人員使用SFT檢查點來初始化RL,并訓練了四個epoch,每個prompt生成四個響應。

此外,團隊把PPO和來自MATH數據集的基于規則的驗證器訓練拆分,作為RL的提示集。

具體結果同樣在下圖中顯示出來:

圖中實線和虛線之間的間隙表明,使用長CoT SFT初始化的模型通常可以通過RL進一步顯著改進,而使用短CoT SFT初始化的模型從RL中獲得的收益很小。

例如,在MATH-500上,RL可以將長CoT SFT模型絕對改進3%以上,而短CoT SFT模型在RL前后的精度幾乎相同。

需要注意的是,RL并不總是能夠穩定地擴展思維鏈的長度和復雜性。

為此,研究團隊引入了一種帶有重復懲罰的余弦長度縮放獎勵機制,有效穩定了思維鏈的增長,并鼓勵模型在推理過程中進行分支和回溯。

整理長CoT數據

除上述研究外,為了整理長CoT數據,研究團隊比較了兩種方法。

一種是通過提示短CoT模型,生成原始動作,并按順序組合它們,以此構建長CoT軌跡

另一種是從現有的長CoT模型中提煉出長CoT軌跡——這些模型表現出涌現長CoT(emergent long CoT)

結果表明,從涌現長CoT模式中提煉出來的模型,比構建的模式泛化得更好,并且可以用RL進一步顯著改進。

在構建模式上訓練的模型則不能做到這一點。

此外,由于DeepSeek-R1已經證明,在基礎模型上擴展RL計算可以出現長CoT,自我驗證行為有時會被模型的探索標記為緊急行為或 “頓悟時刻”。

這種模式在短CoT數據中很少見,但研究人員注意到,有時基座模型已經存在自我驗證行為,而用RL強化這些行為需要嚴苛的條件。

如下圖所示,Qwen2.5Math-7B的RL有效地提高了準確性,但沒有增加基礎模型輸出中存在的 “recheck” 模式的頻率,也沒有有效地激勵其他反射模式,如 “retry” 和 “alternatively”。

這表明盡管提高性能效果顯著,但來自基座模型的RL不一定會激勵反射模式。

四個關鍵發現

在系統性研究了長CoT推理的機制后,團隊提出了4個關鍵發現。

第一,SFT并非必需,但能簡化訓練并提高效率。

雖然SFT并非訓練長CoT的必要條件,但它能夠有效地初始化模型,并為后續的RL訓練提供堅實的基礎。

第二,推理能力隨著訓練計算的增加而出現,但并非總是如此。

長CoT的出現并非必然,且樸素的RL方法并不總是能有效地延長CoT長度。

需要通過獎勵塑造等技巧來穩定CoT長度的增長,團隊的做法是引入了一種余弦長度縮放獎勵,并加入了重復懲罰,這既平衡了推理深度,又防止了無意義的長度增加。

第三,可驗證獎勵函數對CoT擴展至關重要。

由于高質量、可驗證數據稀缺,擴展可驗證獎勵函數對RL至關重要。

論文探索了利用網絡提取的包含噪聲解決方案的數據,并發現這種“銀色”監督信號在RL中展現出巨大的潛力,尤其是在處理OOO任務(如STEM推理)時。

第四,基模型中天生存在錯誤修正和回溯等技能,但通過RL有效地激勵這些技能需要大量的計算。

而測量這些能力的出現需要更精細的方法,需要謹慎設計RL激勵。

最后,研究團隊提出了幾個未來的研究方向,包括:

擴大模型規模、改進RL基礎設施、探索更有效的驗證信號以及深入分析基礎模型中的潛在能力。

這些方向有望進一步推動長CoT在大模型中的應用。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-04 08:49:00

2023-06-05 10:01:18

模型測評

2025-09-15 08:53:00

AI模型推理

2025-02-17 14:43:51

2025-03-17 08:15:00

AI技術模型

2025-05-08 09:10:30

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-07-28 09:12:00

2025-04-02 09:00:00

模型開源AI

2025-03-11 08:50:00

2025-04-08 09:16:00

推理模型AI

2025-10-13 09:08:00

2025-04-25 09:22:44

2025-03-05 00:22:00

2025-11-13 08:00:00

大推理模型AI人工智能

2025-04-23 12:09:25

RL大模型進化

2025-09-16 10:09:00

2023-05-30 14:17:00

模型推理

2025-02-12 09:00:00

AI模型DeepSeek
點贊
收藏

51CTO技術棧公眾號

国产中文字幕视频在线观看| 欧美重口另类videos人妖| 91嫩草国产丨精品入口麻豆| av综合网页| 欧美人成免费网站| 26uuu成人| 婷婷中文字幕一区| 久久好看免费视频| 欧美jizz18性欧美| 日韩美女视频19| 中文字幕精品在线播放| 91亚洲国产高清| 久久夜精品香蕉| av电影免费在线看| 日韩欧美在线中文字幕| 已婚少妇美妙人妻系列| 三级不卡在线观看| 成人美女免费网站视频| 精品视频在线播放一区二区三区 | 国产小视频免费在线观看| a美女胸又www黄视频久久| 免费观看成人高| 日韩理论电影大全| 欧美夫妻性生活视频| 中文在线资源| 精品免费国产一区二区三区四区| 中文字幕在线视频不卡| 国产精品电影院| 国产男女激情视频| 99精品一区二区三区| 成人在线观看毛片| 精品一区二区三区在线观看国产| 久久精品国产美女| 亚洲国内欧美| 国产精品一区二区三区在线观| 亚洲成aⅴ人片久久青草影院| 久久午夜a级毛片| 另类一区二区| 日韩最新免费不卡| 成人精品高清在线视频| 亚洲欧美另类人妖| 久久青青视频| 亚洲欧美在线免费| 99re66热这里只有精品4| 亚洲人免费视频| 日本在线中文字幕一区二区三区| 亚洲精品少妇网址| 一本大道色婷婷在线| 亚洲欧洲一区二区三区久久| 爱看av在线| 亚洲精品国产精品乱码不99按摩 | 中文字幕日韩视频| 欧美人妖巨大在线| 最新天堂资源在线资源| 有码一区二区三区| 老司机aⅴ毛片免费观看| 亚洲乱码精品一二三四区日韩在线| 亚洲 中文字幕 日韩 无码| 久久久不卡网国产精品一区| 日韩欧美xxxx| 综合在线观看色| 天堂社区日本电影超碰| 午夜久久久久久久久| yw在线观看| 亚洲成人精品久久| 韩日一区二区| 国语自产在线不卡| 日韩欧美高清| 国产一区二区三区四区hd| 久久亚洲电影| 缅甸午夜性猛交xxxx| 亚洲欧美日本韩国| 福利成人在线观看| 日韩电影中文字幕在线| 亚洲人成亚洲精品| 亚洲欧美综合久久久久久v动漫| 亚洲视频自拍偷拍| 久久不卡日韩美女| 久久久久久久久久久亚洲| 一区二区三区四区在线看| 91免费版网站入口| 久久综合九色| 欧美 丝袜 自拍 制服 另类| 日韩一区在线看| av影片在线看| 伊人男人综合视频网| 欧美男男freegayvideosroom| 国产美女91呻吟求| 日韩精品一级二级 | 国产美女在线精品| 男人添女人下面免费视频| 精品色蜜蜜精品视频在线观看| 秋霞a级毛片在线看| 三级精品视频久久久久| 欧美日韩性在线观看| 亚洲一区二区三区四区中文| 中文字幕免费在线观看视频一区| 视频三区在线观看| 日韩视频在线一区二区三区| 亚洲国产婷婷香蕉久久久久久99 | 国产精品国产福利国产秒拍 | 亚洲黄色小视频在线观看| 在线欧美日韩国产| 精品自拍视频| 亚洲www永久成人夜色| 国产成人在线免费观看| 特黄aaaaaaaaa毛片免费视频| 亚洲第一精品自拍| 九九视频精品全部免费播放| 日韩欧美在线电影| 亚洲精品欧美二区三区中文字幕| 成全电影大全在线观看| 国产国产精品人在线视| 国产成人av资源| 最新av网站在线观看| 欧美国产日韩一区| 日韩av不卡一区二区| 中出在线观看| 欧美激情欧美狂野欧美精品| 人禽交欧美网站| 飘雪影院手机免费高清版在线观看 | dy888夜精品国产专区| 2020国产精品自拍| 欧美xxxx做受欧美88bbw| 国产一区私人高清影院| 久久久不卡网国产精品二区| 91精选在线| 91青草视频久久| 国产人妖乱国产精品人妖| 国产调教在线| 精品一区二区日本| 婷婷丁香久久五月婷婷| 136福利精品导航| 黄网站色视频免费观看 | 日韩中文字幕亚洲精品欧美| 欧美性猛交xxxx乱大交极品| 99精品国产高清一区二区麻豆| 97精品国产91久久久久久| 校园春色另类视频| 久久人人九九| 亚洲一区二区欧美日韩| 国产精品第一国产精品| 国产91精品一区二区绿帽| 国产精品日韩成人| 亚洲日韩中文字幕一区| 欧美少妇一区二区三区| 婷婷成人激情在线网| 国产麻豆一区二区三区精品视频| 亚洲精品中文字幕无码蜜桃| 中文字幕亚洲色图| 成人性色生活片| 欧美成人资源| 99久久免费观看| 亚洲欧美日韩另类| 久久99精品国产.久久久久久 | 日本在线免费网| 成人免费在线网址| 五月天视频一区| 色777狠狠狠综合伊人| 神马伦理电影| 国产精品私拍pans大尺度在线| 亚洲精品高清视频在线观看| xxxx日韩| 动漫成人在线观看| 91天堂在线视频| 欧美亚州韩日在线看免费版国语版| 91av精品| 国产美女av在线| 亚洲巨乳在线观看| 日韩精品有码在线观看| 成人av动漫在线| 91麻豆精品激情在线观看最新 | 狠狠综合久久| 最新真实国产在线视频| 国产精品伊人日日| 欧美一区二区久久| 蜜桃视频第一区免费观看| 麻豆mv在线观看| 9久久9毛片又大又硬又粗| 久久久久久久久久av| 亚洲精品乱码久久久久久日本蜜臀| 国产精品一区二区三区av麻| 三级网站在线| 精品视频一区二区三区四区| 精品国产乱码久久久久久蜜臀| 精品在线观看免费| 国产亚洲久久| 资源视频在线播放免费| 国产精品视频免费观看| 精品99一区二区| 久久久噜噜噜久噜久久综合| 亚洲精品一级二级三级| 成人免费黄色网页| 亚洲精品国产suv一区88| 欧美人与物videos| 欧美午夜激情视频| 国产一区二区三区在线看麻豆| 久久综合给合| 国产精品99999| 国产二级片在线观看|