国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型強化學習新發現:刪減84%數據反提升效果

人工智能 新聞
提升強化學習效果的關鍵,在于找到與模型學習歷程高度匹配的訓練數據。

在人工智能領域,"更大即更強" 的理念一直主導著大模型強化學習的發展方向。特別是在提升大語言模型的推理能力方面,業界普遍認為需要海量的強化學習訓練數據才能獲得突破。然而,最新研究卻給出了一個令人驚喜的發現:在強化學習訓練中,數據的學習影響力遠比數量重要。通過分析模型的學習軌跡,研究發現精心選擇的 1,389 個高影響力樣本,就能超越完整的 8,523 個樣本數據集的效果。這一發現不僅挑戰了傳統認知,更揭示了一個關鍵事實:提升強化學習效果的關鍵,在于找到與模型學習歷程高度匹配的訓練數據。

  • 論文標題:LIMR: Less is More for RL Scaling
  • 論文地址:https://arxiv.org/pdf/2502.11886
  • 代碼地址:https://github.com/GAIR-NLP/LIMR
  • 數據集地址:https://huggingface.co/datasets/GAIR/LIMR
  • 模型地址:https://huggingface.co/GAIR/LIMR

一、挑戰傳統:重新思考強化學習的數據策略

近期,強化學習在提升大語言模型的推理能力方面取得了顯著成效。從 OpenAI 的 o1 到 Deepseek R1,再到 Kimi1.5,這些模型都展示了強化學習在培養模型的自我驗證、反思和擴展思維鏈等復雜推理行為方面的巨大潛力。這些成功案例似乎在暗示:要獲得更強的推理能力,就需要更多的強化學習訓練數據。

然而,這些開創性工作留下了一個關鍵問題:到底需要多少訓練數據才能有效提升模型的推理能力?目前的研究從 8000 到 150000 數據量不等,卻沒有一個明確的答案。更重要的是,這種數據規模的不透明性帶來了兩個根本性挑戰:

  • 研究團隊只能依靠反復試錯來確定數據量,這導致了大量計算資源的浪費
  • 領域內缺乏對樣本數量如何影響模型性能的系統性分析,使得難以做出合理的資源分配決策

這種情況促使研究團隊提出一個更本質的問題:是否存在一種方法,能夠識別出真正對模型學習有幫助的訓練數據?研究從一個基礎場景開始探索:直接從基座模型出發,不借助任何數據蒸餾(類似 Deepseek R1-zero 的設置)。通過深入研究模型在強化學習過程中的學習軌跡,研究發現:并非所有訓練數據都對模型的進步貢獻相同。有些數據能夠顯著推動模型的學習,而有些則幾乎沒有影響。

這一發現促使研究團隊開發了學習影響力度量(Learning Impact Measurement, LIM)方法。通過分析模型的學習曲線,LIM 可以自動識別那些與模型學習進程高度匹配的 "黃金樣本"。實驗結果證明了這一方法的有效性:

  • 精選的 1,389 個樣本就能達到甚至超越使用 8,523 個樣本的效果。

精選 1,389 個樣本就能達到全量數據的效果,在小模型上強化學習優于監督微調

這些發現更新了學術界對強化學習擴展的認知:提升模型性能的關鍵不在于簡單地增加數據量,而在于如何找到那些真正能促進模型學習的高質量樣本。更重要的是,這項研究提供了一種自動化的方法來識別這些樣本,使得高效的強化學習訓練成為可能。

二、尋找 "黃金" 樣本:數據的學習影響力測量(LIM)

要找到真正有價值的訓練樣本,研究團隊深入分析了模型在強化學習過程中的學習動態。通過對 MATH-FULL 數據集(包含 8,523 個不同難度級別的數學問題)的分析,研究者發現了一個有趣的現象:不同的訓練樣本對模型學習的貢獻存在顯著差異。

學習軌跡的差異性

在仔細觀察模型訓練過程中的表現時,研究者發現了三種典型的學習模式:

  • 部分樣本的獎勵值始終接近零,表明模型對這些問題始終難以掌握
  • 某些樣本能迅速達到高獎勵值,顯示模型很快就掌握了解決方法
  • 最有趣的是那些展現出動態學習進展的樣本,它們的獎勵值呈現不同的提升速率

這一發現引發了一個關鍵思考:如果能夠找到那些最匹配模型整體學習軌跡的樣本,是否就能實現更高效的訓練?

(a) 不同訓練樣本在訓練過程中展現出的多樣化學習模式。(b) 樣本學習軌跡與平均獎勵曲線(紅色)的比較。

LIM:一種自動化的樣本評估方法

基于上述觀察,研究團隊開發了學習影響力測量(Learning Impact Measurement, LIM)方法。LIM 的核心思想是:好的訓練樣本應該與模型的整體學習進程保持同步。具體來說:

1. 計算參考曲線

首先,計算模型在所有樣本上的平均獎勵曲線作為參考:

這條曲線反映了模型的整體學習軌跡。

2. 評估樣本對齊度

接著,為每個樣本計算一個歸一化的對齊分數:

這個分數衡量了樣本的學習模式與整體學習軌跡的匹配程度。分數越高,表示該樣本越 "有價值"。

3. 篩選高價值樣本

最后,設定一個質量閾值 θ,選取那些對齊分數超過閾值的樣本。在實驗中,設置 θ = 0.6 篩選出了 1,389 個高價值樣本,構成了優化后的 LIMR 數據集。

對比與驗證

為了驗證 LIM 方法的有效性,研究團隊設計了兩個基線方法:

1. 隨機采樣(RAND):從原始數據集中隨機選擇 1,389 個樣本

2. 線性進度分析(LINEAR):專注于那些顯示穩定改進的樣本

這些對照實驗幫助我們理解了 LIM 的優勢:它不僅能捕獲穩定進步的樣本,還能識別那些在早期快速提升后趨于穩定的有價值樣本。

獎勵設計

對于獎勵機制的設計,研究團隊借鑒了 Deepseek R1 的經驗,采用了簡單而有效的規則型獎勵函數:

  • 當答案完全正確時,給予 + 1 的正向獎勵
  • 當答案錯誤但格式正確時,給予 - 0.5 的負向獎勵
  • 當答案存在格式錯誤時,給予 - 1 的負向獎勵

這種三級分明的獎勵機制不僅能準確反映模型的解題能力,還能引導模型注意答案的規范性。

三、實驗驗證:少即是多的力量

實驗設置與基準

研究團隊采用 PPO 算法在 Qwen2.5-Math-7B 基座模型上進行了強化學習訓練,并在多個具有挑戰性的數學基準上進行了評估,包括 MATH500、AIME2024 和 AMC2023 等競賽級數據集。

主要發現

實驗結果令人振奮。使用 LIMR 精選的 1,389 個樣本,模型不僅達到了使用全量 8,523 個樣本訓練的性能,在某些指標上甚至取得了更好的表現:

  • 在 AIME2024 上達到了 32.5% 的準確率
  • 在 MATH500 上達到了 78.0% 的準確率
  • 在 AMC2023 上達到了 63.8% 的準確率

相比之下,隨機選擇相同數量樣本的基線模型(RAND)表現顯著較差,這證實了 LIM 選擇策略的有效性。

三種數據選擇策略的性能對比:LIMR 以更少的數據達到更好的效果

LIMR 在三個數學基準測試上的訓練動態表現與全量數據相當,顯著優于隨機采樣

訓練動態分析

更有趣的是模型在訓練過程中表現出的動態特征。LIMR 不僅在準確率上表現出色,其訓練過程也展現出了更穩定的特征:

  • 準確率曲線與使用全量數據訓練的模型幾乎重合
  • 模型生成的序列長度變化更加合理,展現出了更好的學習模式
  • 訓練獎勵增長更快,最終也達到了更高的水平

這些結果不僅驗證了 LIM 方法的有效性,也表明通過精心選擇的訓練樣本,確實可以實現 "少即是多" 的效果。

LIMR 的訓練動態分析:從精選樣本中獲得更穩定的學習效果

四、數據稀缺場景下的新發現:RL 優于 SFT

在探索高效訓練策略的過程中,研究者們發現了一個令人深思的現象:在數據稀缺且模型規模較小的場景下,強化學習的效果顯著優于監督微調。

為了驗證這一發現,研究者們設計了一個精心的對比實驗:使用相同規模的數據(來自 s1 的 1000 條數據和來自 LIMO 的 817 條數據),分別通過監督微調和強化學習來訓練 Qwen-2.5-Math-7B 模型。結果令人印象深刻:

  • 在 AIME 測試中,LIMR 的表現較傳統監督微調提升超過 100%
  • 在 AMC23 和 MATH500 上,準確率提升均超過 10%
  • 這些提升是在使用相近數量訓練樣本的情況下實現的

小模型上的策略對比:強化學習的 LIMR 優于監督微調方法

這一發現具有重要意義。雖然 LIMO 和 s1 等方法已經證明了在 32B 規模模型上通過監督微調可以實現高效的推理能力,但研究表明,對于 7B 這樣的小型模型,強化學習可能是更優的選擇。

這個結果揭示了一個關鍵洞見:在資源受限的場景下,選擇合適的訓練策略比盲目追求更具挑戰性的數據更為重要。通過將強化學習與智能的數據選擇策略相結合,研究者們找到了一條提升小型模型性能的有效途徑。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-25 09:28:38

2025-06-09 09:32:35

2022-08-16 08:35:45

Black Hat網絡安全

2025-07-01 09:05:28

2016-10-09 13:19:43

2023-08-28 06:52:29

2019-03-25 22:04:19

編程PythonJava

2025-10-31 08:55:00

2019-04-04 13:00:19

Linuxshell命令

2016-07-06 11:38:10

移動 出海

2025-12-01 01:23:00

2025-10-10 09:02:16

2023-04-23 10:12:14

算法強化學習

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2013-02-28 10:24:18

2012-06-20 09:39:02

惡意網站

2025-10-21 09:06:00

2021-10-15 10:11:00

遠程管理監控數據中心

2023-05-05 13:11:16

2022-11-03 14:13:52

強化學習方法
點贊
收藏

51CTO技術棧公眾號

欧美成人免费全部网站| 在线中文一区| 香蕉成人啪国产精品视频综合网 | 亚洲国产精品久久久男人的天堂| 国产精品视频500部| 色婷五月综激情亚洲综合| 美女被久久久| 国产精品久久久久久久久免费| 国产伦精品一区二区三区视频金莲| 国产精品电影一区二区三区| 久久久国产精品一区二区三区| av男人一区| 亚洲人成网站777色婷婷| 北岛玲一区二区三区| 亚洲欧洲日韩综合一区二区| 伊人久久av导航| 欧美一区二区| 欧洲美女7788成人免费视频| av成人亚洲| 亚洲精品99999| 91在线品视觉盛宴免费| 亚洲一区二区在线视频| 久久精品网站视频| 成人福利电影精品一区二区在线观看 | av成人动漫在线观看| 精品欧美国产一区二区三区不卡| 精品国产aⅴ| 91精品国产乱码久久久久久蜜臀 | 视频一区二区三区在线| 亚洲va久久久噜噜噜久久天堂| 盗摄牛牛av影视一区二区| 亚洲剧情一区二区| av在线影院| 欧美色视频一区| 蜜桃视频在线免费| 色综合天天综合在线视频| 国产日本韩国在线播放| 亚洲四区在线观看| avlululu| 亚洲黄一区二区三区| 欧美aaa大片| 亚洲影院理伦片| 欧美写真视频一区| 精品欧美国产一区二区三区| 四虎影视在线播放| 在线看不卡av| seseavlu视频在线| 欧美日本乱大交xxxxx| 国产精品videossex| 久久99精品久久久久久动态图| 色综合男人天堂| 9色在线视频网站| 亚洲影视在线观看| 九色在线播放| 伊人久久精品视频| 理论电影国产精品| 日本a级黄色| 国a精品视频大全| 成人av网站在线| 亚洲精品乱码日韩| 蜜桃成人在线视频| 国产不卡一区二区视频| 国产精品国产三级国产aⅴ9色| 精品99一区二区| 中文字幕免费一区二区三区| 欧美性bbwbbwbbwhd| 一区二区三区欧美激情| 久久视频社区| 日本久久久久久久久久久久| 成人午夜电影小说| 日韩精品一区在线视频| 日韩经典中文字幕在线观看| www.一区二区| 污污的视频在线观看| 国产成人精品免高潮费视频| 国内成人免费视频| 蜜桃av久久久亚洲精品| 亚洲欧美日韩区| 国产福利一区二区三区在线播放| 国产一区二区四区| 国内久久久精品| av日韩亚洲| 黄色三级视频在线| 国产精品无码永久免费888| 色欧美激情视频在线| 69av在线视频| 91美女蜜桃在线| 在线日韩影院| 777av视频| 欧洲xxxxx| 97在线视频一区| 成人免费高清在线观看| 性欧美freesex顶级少妇| 国产美女网站在线观看| 精品精品国产国产自在线| 一本久久综合| 高清美女视频一区| 9999在线观看| 97人人香蕉| 久久精品成人一区二区三区| 日韩欧美精品三级| 一本色道久久综合一区| 婷婷精品在线观看| 久久麻豆视频| 久久人妻无码一区二区| 国产在线98福利播放视频| 久久精品中文字幕电影| 国产呦萝稀缺另类资源| 欧美污视频网站| 欧美性生活大片免费观看网址| 肉色欧美久久久久久久免费看| 日本在线观看天堂男亚洲 | 国产婷婷精品| 亚洲成熟丰满熟妇高潮xxxxx| 91黄色小视频| 电影一区二区三区久久免费观看| 国产日韩欧美在线播放| 成人看片黄a免费看在线| 幼a在线观看| 国产91露脸中文字幕在线| 国产高清视频一区| 色开心亚洲综合| 国产精品综合久久久| 久久久久久久久99精品| 91美女精品| 动漫精品视频| 亚洲精品国产品国语在线app| 久久er热在这里只有精品66| 欧美系列一区| 欧美专区亚洲专区| 久久大综合网| jizzjizz中文| 欧美成人自拍视频| 国产成人精品亚洲日本在线桃色 | 国产剧情一区二区| 国产在线观看a视频| 国产精品视频网址| 国产精品白丝在线| 精品国模一区二区三区欧美 | av在线播放av| 国产日韩欧美在线看| 1区2区3区精品视频| 国产视频一区二| 人妻少妇精品久久| 亚洲午夜未满十八勿入免费观看全集| 日韩午夜av| 动漫一区在线| 欧美福利精品| 欧美一卡二卡在线| 久久九九免费| 国产www视频在线观看| 欧美日韩精品久久久免费观看| 欧美视频一二三区| 欧美在线播放| av中文天堂在线| 国产成人免费电影| 欧美日韩大陆在线| 久久久久久久欧美精品| 黄色一级片在线观看| 欧美日韩一区二区三区在线观看免 | 牛夜精品久久久久久久99黑人| http://嫩草影院| 国产成人亚洲综合91| 亚洲情趣在线观看| 自拍欧美一区| 亚洲国产精华液| av资源站久久亚洲| 91精品国产综合久久福利软件| 中文日韩在线| 99re6在线精品视频免费播放| 亚洲精品9999| 国产亚洲精品美女久久久久| 成人app下载| 国产精品美女久久久久| 天天操天天爱天天爽| 日本高清久久天堂| 午夜久久久久久| 欧美日韩1区| 久久香蕉av| 久久国产午夜精品理论片最新版本| 中文字幕日韩电影| 久久久久久久久久久电影| 亚洲一级大片| 91成人福利在线观看| 成人国产一区二区| 日韩精品一区二区三区蜜臀| 夫妻av一区二区| 日韩伦理一区二区三区| 你懂的好爽在线观看| 亚洲日本欧美在线| 欧美另类精品xxxx孕妇| 亚洲一二三区视频在线观看| 国产精品99一区二区| 高清视频在线观看三级| av片中文字幕| 91免费在线观看网站| 亚洲久久久久久久久久久| 中文字幕一区二区三区在线播放| 影视一区二区| 日本一区免费网站|