国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI數(shù)學能力暴漲100%,自進化直逼RL極限!CMU新作顛覆認知

人工智能 新聞
數(shù)據(jù)枯竭正成為AI發(fā)展的新瓶頸!CMU團隊提出革命性方案SRT:讓LLM實現(xiàn)無需人類標注的自我進化!SRT初期就能迭代提升數(shù)學與推理能力,甚至性能逼近傳統(tǒng)強化學習的效果,揭示了其顛覆性潛力。

通往AGI最大的絆腳石,便是互聯(lián)網(wǎng)數(shù)據(jù)不夠用了!

DeepSeek-R1、OpenAI的o系推理模型出世,不再單純依賴人類標注「標準答案」,而是通過RL實現(xiàn)破局。

但問題來了——當前,LLM依然需要人類設計「正確信號」來指導訓練。

如果問題復雜到人類都不知道答案,這些AI就只能抓瞎了。

為此,CMU聯(lián)手獨立研究員推出一套「自獎勵訓練」(SRT)的全新方法,堪稱AI「自我修行」的秘籍!

圖片

論文地址:https://arxiv.org/pdf/2505.21444

它的核心思路是,讓LLM利用自身「自洽性」作為內(nèi)在的監(jiān)督信號,生成獎勵來優(yōu)化自己。

簡單來說,AI會像一個哲學家,盯著自己的答案自問:這個推導邏輯自洽嗎?有沒有漏洞?

然后,它會根據(jù)答案「自洽程度」給自己打分,再用分數(shù)去不斷改進。

關鍵是,SRT完全不需要人類標注的數(shù)據(jù),可以自然地應用于「測試時訓練」。

實驗結(jié)果讓人眼前一亮:在早期訓練階段,SRT的性能與標準答案訓練RL方法相媲美。

目前,研究團隊的代碼已公開。

圖片

地址:https://github.com/tajwarfahim/srt

自獎勵訓練:AI自我修行秘籍

在沒有外部監(jiān)督的情況下,模型需要依靠自身來生成監(jiān)督信號。

直觀來說,如果模型能夠在其生成的多個答案中識別出更高質(zhì)量的答案,那么這種識別出的改進就可以作為訓練信號。

這種情況自然地發(fā)生在具有正向「生成-驗證差距」的問題中,比如數(shù)學、邏輯推理和代碼生成任務。

一種簡單但有效的方法是利用多數(shù)投票來挖掘這種差距。實驗表明,這比單個模型生成的答案有更高的準確性。

在本文的設置中,多數(shù)投票的步驟包括:

  1. 對每個提示采樣生成多個答案;
  2. 根據(jù)解析出的最終解決方案對答案進行分組;
  3. 用最常見的解決方案(眾數(shù))來估計真實答案。

自進化方法SRT

研究團隊提出了一種新穎的方法,把模型的自我改進過程設計成一個強化學習任務。

在這個過程中,標簽并不是固定的,而是由模型不斷演變的多數(shù)投票結(jié)果動態(tài)生成的。

簡單來說,就是讓模型自己「投票」選出最好的答案,并用這些答案作為指導,逐步提升自己的表現(xiàn)。

強化學習的每一輪操作可以簡單理解為以下步驟:

  1. 采樣一小批提示,然后用當前模型為每個提示生成n個可能的答案。
  2. 通過「多數(shù)投票」的方式,找出每個提示下最常見的答案,作為臨時的「標準答案」(偽標簽)。
  3. 檢查每個生成答案是否與多數(shù)投票的答案一致,如果一致就給它一個獎勵(用公式表示為:r(y) = 1[answer(y) = y_majority])。
  4. 根據(jù)這批數(shù)據(jù)和計算出的獎勵,更新一次模型,讓它變得更聰明。

具體來說,研究團隊設計了一種獎勵機制,巧妙利用模型自洽性來定義獎勵方式。這使得他們的方法能輕松適配常見的強化學習算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。

另外,由于每個問題提示通常會生成16到64個答案,SRT跟其他基于標簽的算法相比,不會增加額外的計算負擔。

只要每次強化學習迭代時,多數(shù)投票都能讓模型的生成結(jié)果比驗證結(jié)果更好一點,這種反復的自我獎勵就能持續(xù)提供有用的指導信號,幫助模型不斷進步。

雖然模型自我改進的前景令人振奮,但仍然有局限性:模型自生成的獎勵僅僅是衡量潛在正確性的代用指標。

這種代用獎勵可能觸發(fā)「獎勵作弊」(reward hacking):模型為了最大化自身賦予的獎勵,會產(chǎn)出越來越自洽卻可能并不正確的答案。

總的來說,這項研究的貢獻有以下四點:

  1. 提出了一種簡單而有效的自訓練強化學習方法——自獎勵訓練(SRT)。該方法利用多個模型生成解之間的一致性來估計強化學習訓練中的正確性,在沒有標記數(shù)據(jù)的情況下提供自監(jiān)督信號。
  2. 通過實驗證明,在早期訓練階段,SRT的性能可媲美使用標準答案訓練的標準強化學習方法。
  3. 分析了自生成獎勵的局限性,揭示了模型的獎勵函數(shù)最初與正確性相關,但可能會退化為僅反映置信度而非真實準確性,導致獎勵作弊問題。
  4. 提出了緩解獎勵作弊的策略,為未來持續(xù)模型改進的方法奠定了基礎。

實驗結(jié)果

最新提出的SRT算法,其優(yōu)勢和局限是什么?

為此,研究人員基于Qwen2.5-Math-7B模型,展開了一系列研究,具體回答了以下四大核心問題:

  1. 與基于真實標記的標準強化學習方法相比,SRT算法的有效性如何?對未見問題可以實現(xiàn)泛化嗎?
  2. 自我改進能否持續(xù)迭代從而實現(xiàn)性能的不斷提升?抑或這種改進存在固有上限?
  3. 哪些底層因素會影響自我改進的有效性?
  4. 當SRT用于測試階段的性能提升時,實際效果如何?

基于多數(shù)投票的自訓練

如下圖2所示,在MATH和AIME訓練集上,自監(jiān)督SRT方法無需真實標記信號,即可取得與基于真實標記的強化學習相當?shù)慕Y(jié)果。

值得注意的是,圖2的pass@1分數(shù)均是在保留測試集上評估的,這表明自訓練過程能穩(wěn)健地泛化到訓練分布之外。

圖片

然而,DAPO數(shù)據(jù)集上的結(jié)果更為復雜。

具體而言,在DAPO上訓練時,研究人員發(fā)現(xiàn)SRT算法在測試集上的性能,最初以與基于真實答案的標準RL相當?shù)乃俣忍嵘?/span>

但在約400-600訓練步時,SRT達到峰值性能后開始下降,而基于真實標記的標準RL訓練卻能持續(xù)提升。

總體而言,研究發(fā)現(xiàn)了一個引人注目且出人意料的趨勢:即使沒有任何標注樣本,SRT的性能曲線在訓練初期與基于標準答案的RL高度吻合。

在統(tǒng)計誤差范圍內(nèi),SRT在MATH和AIME'83-AIME'23數(shù)據(jù)集上的峰值測試pass@1分數(shù)與有監(jiān)督RL方法基本持平。

在更具挑戰(zhàn)性的DAPO數(shù)據(jù)集上,SRT仍能達到RL最終性能的75%。

此外,在所有三個訓練集上,SRT的峰值性能相比基礎模型都有約100%的相對提升。

SRT性能峰值后,異常現(xiàn)象分析

當SRT在DAPO訓練集上達到性能峰值后(見圖2),研究人員觀察到其測試準確率開始顯著惡化。

事實上,在MATH-12k數(shù)據(jù)集上訓練超過兩個epoch時,同樣會出現(xiàn)明顯的性能崩潰現(xiàn)象。

對于這種行為,作者給出一個簡單而精確的理論解釋:

由SRT目標定義的強化學習優(yōu)化問題明確鼓勵輸出之間的一致性,而與正確性無關。

因此,在該目標下的最優(yōu)策略是無論輸入如何都生成完全相同的響應,從而人為地獲得最大可能的獎勵。

因此,自然可以預期,在這種代理目標下的持續(xù)訓練可能導致這種退化解,尤其是當優(yōu)化這一目標比學習解決實際任務更容易時。

圖片

測試時自改進

自訓練的一個誘人應用,是通過測試時訓練(test-time training)提升模型準確率。

將SRT作為測試時訓練技術應用異常簡單:只需將無標注測試集完全視作訓練數(shù)據(jù)集,并直接應用SRT。

接下來,研究人員對比了經(jīng)過SRT測試時訓練后的多數(shù)投票性能,與未進行任何測試時訓練的性能。

如下圖4顯示,在maj@32指標下,相比直接對基礎模型生成輸出應用主流多數(shù)投票基線,通過SRR實現(xiàn)的測試時訓練能帶來相對有限,但仍可察覺的性能提升。

此外,在更大規(guī)模的測試數(shù)據(jù)集上,相較于基礎模型的多數(shù)投票,其性能增益更為顯著。

圖片

為何測試時訓練不會引發(fā)性能崩潰?

有趣的是,測試時訓練完成后,通過直觀檢查模型輸出可發(fā)現(xiàn):盡管模型對幾乎每個測試提示的預測都退化成了單一響應(這正是SRT目標的最優(yōu)解行為),但測試準確率仍保持高位。

研究人員推測,測試時自訓練的穩(wěn)定性源于數(shù)據(jù)集規(guī)模的關鍵差異。

以AIME24測試數(shù)據(jù)集為例,其僅含30個自改進樣本。

在此有限樣本量下,模型會通過強化特定CoT推,迅速收斂至這些樣本上的穩(wěn)定多數(shù)投票答案。

一旦達成收斂,SRT便無法獲得有意義的梯度信號以進一步更新參數(shù),從而自然穩(wěn)定了測試時性能。

圖片

相比之下,在大規(guī)模數(shù)據(jù)集常規(guī)訓練時,持續(xù)輸入的新樣本會不斷驅(qū)使模型為一致性進行過度優(yōu)化。

在此條件下,模型傾向于采用過度簡化的泛化策略(生成相同的\boxed{}答案),最終因輸出與提示無關的單一預測而崩潰。

大模型崩潰,可以避免嗎?

那么,LLM是否可以避免崩潰?

如上所述,自獎勵訓練(SRT)的優(yōu)化目標,可能導致初期性能顯著提升,但最終引發(fā)模型崩潰。

為此,研究人員探究了以下互補策略,以應對模型崩潰問題,進一步提升自訓練性能上限:

  1. 早停(Early Stopping)策略:利用少量帶標注的驗證數(shù)據(jù)集監(jiān)測模型狀態(tài),及時終止訓練以防止崩潰;
  2. 算法策略:通過采用穩(wěn)定基模型(而非持續(xù)更新的模型)生成的偽標記,從根本上降低崩潰風險;
  3. 數(shù)據(jù)驅(qū)動的課程學習(Curriculum Learning)策略:突破簡單早停的局限,通過漸進式學習機制提升模型性能。

早停策略

實驗中,即使僅使用少量標注驗證數(shù)據(jù),也能有效識別自訓練過程中的性能峰值點,從而規(guī)避模型崩潰風險。

如圖6所示,通過在DAPO數(shù)據(jù)集上持續(xù)監(jiān)測訓練過程并在多個測試集上進行評估,作者發(fā)現(xiàn)一個關鍵現(xiàn)象:

不同保留測試集上的性能峰值均出現(xiàn)在相近的訓練步數(shù)。

這一規(guī)律表明,任意一個測試集都可用于早停決策。

具體而言,圖6中的垂直虛線展示了僅使用1%的DAPO數(shù)據(jù)作為驗證集的早停效果——此時模型在所有其他評估數(shù)據(jù)集上的性能仍保持接近最優(yōu)水平。

圖片

算法策略

模型崩潰的根源在于SRT(自訓練強化學習)過度強調(diào)一致性而非正確性——即使輸出結(jié)果錯誤,模型間的一致性也會被持續(xù)強化。

針對此問題,研究人員提出一種簡單有效的解決方案:從穩(wěn)定的固定檢查點(而非持續(xù)更新的策略)生成偽標記。

具體實施中,他們采用Qwen2.5-Math-7B基模型,通過多數(shù)表決機制生成偽標記,將這些離線生成的標記存儲后用于后續(xù)強化學習訓練。

圖7顯示,使用此類離線標記不僅能顯著提升訓練穩(wěn)定性,還能達到與SRT相當?shù)哪P托阅堋?/span>

這一發(fā)現(xiàn)具有重要啟示:訓練過程中動態(tài)更新偽標記(在線標注)未必能帶來顯著優(yōu)勢,反而可能成為訓練不穩(wěn)定的誘因。

圖片

課程學習策略

此外,研究人員提出一個關鍵假設:模型在更具挑戰(zhàn)性的數(shù)據(jù)集上訓練時,崩潰現(xiàn)象會更快出現(xiàn)。

其內(nèi)在機理在于:面對高難度數(shù)據(jù)時,模型更容易放棄預訓練知識,轉(zhuǎn)而通過優(yōu)化自一致性(而非真正學習解決任務)來獲取獎勵。

基于此假設,研究人員采用課程學習,通過篩選DAPO數(shù)據(jù)集中「最簡單」的子集進行訓練。

具體而言,他們保留根據(jù)以下兩個指標選出的前1/3最簡單提示樣本:

  1. 基模型通過率(需真實標記)
  2. 多數(shù)表決頻率(無需真實標記)

圖片

如圖8所示,在這些簡單子集上訓練能顯著延緩獎勵破解現(xiàn)象的出現(xiàn),使模型在多個訓練周期內(nèi)持續(xù)提升。

值得注意的是,采用課程學習策略后,模型性能最終達到了與在整個DAPO數(shù)據(jù)集上使用真實標記進行標準強化學習訓練相當?shù)乃健?/span>

這些突破性結(jié)果表明,課程學習策略有望進一步拓展SRT的效能邊界,為后續(xù)研究開辟了新的方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-29 09:14:17

2025-05-12 08:24:01

2025-06-09 02:15:00

2025-10-20 08:56:00

2025-06-03 08:38:00

2025-08-11 08:38:00

模型AI數(shù)據(jù)

2025-12-08 09:00:00

AI工具人工智能能

2024-09-23 08:30:00

AI模型

2025-02-17 09:33:00

AI算法模型

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2024-10-06 12:32:42

2020-12-07 13:05:10

AI

2023-12-06 13:44:00

模型訓練

2025-05-28 10:31:13

2024-08-20 13:30:17

2024-03-21 13:59:06

圖像研究

2025-02-10 09:35:00

2025-05-19 08:50:00

2019-06-14 16:31:04

阿里AI法官

2025-02-12 11:36:27

點贊
收藏

51CTO技術棧公眾號

91大神精品| 亚洲一区在线不卡| 国产v日韩v欧美v| 亚洲精品国产a久久久久久| 国产综合精品一区二区三区| 国产日韩欧美中文在线| 欧美一区二区三区视频免费播放 | 成人免费网址| 自拍偷拍欧美精品| 久久久久久久香蕉| 午夜亚洲性色视频| 国产精自产拍久久久久久| 久久亚洲精精品中文字幕| 精品国产第一区二区三区观看体验| 性欧美精品孕妇| 亚洲免费资源在线播放| 中文字幕无码不卡免费视频| 久久精品99国产精品| 99蜜桃在线观看免费视频网站| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 亚洲视频分类| 最近2019中文字幕一页二页| 91在线看片| 亚洲男人电影天堂| 少妇激情一区二区三区| 不卡av在线免费观看| 亚洲精品视频一二三| 亚洲制服少妇| 精品欧美国产| 日本一区二区三区视频| 欧美亚洲一区在线| 久久成人福利| 久久久久久久色| 免费视频观看成人| 亚洲欧洲午夜一线一品| 欧美女同一区| 日韩美一区二区三区| 99久久精品免费观看国产| 91精品在线免费| 午夜羞羞小视频在线观看| 日韩一区二区三区在线| 在线观看电影av| 亚洲成人黄色网址| 麻豆理论在线观看| 亚洲网站在线观看| 国产成人精选| 久久久中精品2020中文| 日韩一级电影| 国产精品免费一区| 国产一区清纯| 久久一区二区三区av| 手机精品视频在线观看| 国产又粗又爽又黄的视频| 成人免费观看av| 亚洲欧美国产中文| 天天av天天翘天天综合网色鬼国产| 国产最顶级的黄色片在线免费观看| 亚洲综合男人的天堂| 欧美日本韩国一区二区| 制服视频三区第一页精品| 中文字幕在线直播| 久久69精品久久久久久久电影好| 日韩av影院| 高清av免费一区中文字幕| 蜜臀91精品一区二区三区| 欧美亚洲日本一区二区三区| 国产精品剧情在线亚洲| 天堂网www中文在线| 日韩一区二区免费电影| 中文字幕在线中文字幕在线中三区| 国产一区二区三区视频免费| 8848成人影院| 91亚洲永久免费精品| 热久久久久久久| 每日在线更新av| 亚洲精品国产一区二区三区四区在线| 在线看片你懂的| 日韩精品中文字幕一区二区三区| 亚洲伦乱视频| 欧洲精品在线视频| 久久午夜精品| 亚洲免费av一区二区三区| 欧美日韩美女在线| 日韩欧美精品一区二区三区| 欧美另类第一页| 欧美激情aⅴ一区二区三区| 日韩精品福利片午夜免费观看| 国产精品美女视频| 永久免费网站在线| 国语自产偷拍精品视频偷| 一本色道久久| 中文字幕欧美人妻精品一区| 欧美日韩免费在线| 美女福利一区二区三区| 国产成人精品国内自产拍免费看 | 精品国产日本| 成人免费视频一区二区| 最新av番号| 国产视频丨精品|在线观看| 伊人久久综合影院| 日产精品久久久一区二区| 亚洲国产精品二十页| 欧美精品日韩少妇| 8090成年在线看片午夜| 日韩二区三区四区| 三级黄色网址| 日韩亚洲在线观看| 久久aⅴ国产紧身牛仔裤| 又黄又爽毛片免费观看| 精品国产电影一区二区| 日韩欧美综合| 国产第一页视频| 欧美精品免费视频| 国产99久久| 日本在线xxx| 精品欧美乱码久久久久久1区2区| 国产亚洲第一伦理第一区| 国产 国语对白 露脸 | 亚洲一级大片| 欧美一区二区福利| 亚洲午夜久久久久中文字幕久| 丝袜美腿一区| 免费h精品视频在线播放| 亚洲影院久久精品| 自拍偷拍欧美日韩| 一区不卡字幕| 色偷偷成人一区二区三区91| 精品国产午夜肉伦伦影院| 干日本少妇视频| 欧美日韩视频专区在线播放| 欧美日本成人| 国产精品天天av精麻传媒| 日韩精品一区二区三区视频在线观看| 欧美性感美女一区二区| 日本不卡一区在线| 久久中国妇女中文字幕| 国产不卡免费视频| 老色鬼在线视频| 污视频在线免费观看一区二区三区 | 国产精品久久久久久久久久久久 | 黄网站app在线观看| 国产精品欧美在线| 91网上在线视频| 天堂av在线网| 亚洲精品视频一区二区三区| 欧美三区在线视频| 亚洲国产一成人久久精品| 性生大片免费观看性| 91福利视频在线观看| 亚洲国产精品传媒在线观看| 福利一区三区| 国产又大又硬又粗| 另类美女黄大片| 337p粉嫩大胆色噜噜噜噜亚洲| 免费观看亚洲| 女人被男人躁得好爽免费视频 | 成人福利资源| 欧美风情在线观看| 国产视频911| 玖玖玖视频精品| 韩国日本在线视频| 欧美激情视频一区| **欧美大码日韩| 精品国产一区二区三区小蝌蚪| 91精选福利| 国产精品中文字幕久久久| 五月综合激情日本mⅴ| 中文字幕亚洲综合久久五月天色无吗''| 97国产在线| 97人摸人人澡人人人超一碰| 色狠狠桃花综合| 国产欧美综合一区二区三区| 欧美午夜大胆人体| 久久国产精品免费观看| 色偷偷888欧美精品久久久| 91免费国产在线观看| 精品精品国产毛片在线看| 免费看的毛片| 国产精品18毛片一区二区| 日韩欧美国产小视频| 激情综合色综合久久| 外国成人毛片| 国产剧情av在线| www久久99| 日韩av在线不卡| 久久午夜羞羞影院免费观看| 亚洲精品aaaaa| 国产精品99999| 亚洲视频欧美在线| 美女视频久久黄| 亚洲电影一区二区三区| 亚洲免费黄色| 国产国产一区| 国产女主播在线观看| 国产精品免费一区二区| 亚洲精品国产精品国自产观看浪潮 | 婷婷午夜社区一区| 成人免费淫片95视频观看网站| 91社区国产高清| 亚洲精品成人久久电影|