国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

4500美元驗證強化學習「魔力」,1.5B模型也能超越o1預覽版,模型、數據、代碼全開源

人工智能 新聞
DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強化學習中的無限潛力,也證明了高效訓練策略的重要性。團隊希望通過開源數據集、代碼和訓練日志,推動 RL 在 LLM 推理中的廣泛應用。

Deepseek-R1 的卓越表現引發了廣泛關注,但其訓練方法始終未曾公開。雖然 Deepseek 的模型已開源,但其訓練方法、數據和腳本等關鍵信息仍未對外披露。

根據 Deepseek 公布的信息,許多人認為,只有訓練更大規模的模型,才能真正發揮強化學習(RL)的威力。然而,訓練大模型需要龐大的計算資源,讓開源社區望而卻步。目前的工作(如 TinyZero)僅在簡單任務上復現了所謂的 “Aha moment”,或者僅提供訓練基礎設施和數據(如 OpenR)。

一個由伯克利團隊領銜的研究小組提出了一個大膽的想法:能否用僅 1.5B 參數的小模型,以低成本復現 Deepseek 的訓練秘方?他們發現,簡單復現 Deepseek-R1 的訓練方法需要巨大成本,即使在最小的模型上也需要數十萬美元。但通過一系列訓練技巧,團隊成功將成本大幅降低,最終僅用 4500 美元,就在一個 1.5B 參數的模型上復現了 Deepseek 的關鍵訓練方法。

他們的成果 ——DeepScaleR-1.5B-Preview,基于 Deepseek-R1-Distilled-Qwen-1.5B 模型,通過強化學習(RL)微調,實現了驚人的 43.1% Pass@1 準確率,提升了 14.3%,并在 AIME 2024 競賽中超越了 O1-Preview。

這一成果不僅打破了 “大模型才能強大” 的固有認知,更展示了 RL 在小型模型中的無限可能。

更重要的是,伯克利團隊開源了所有的訓練秘方,包括模型、數據、訓練代碼和訓練日志,為推動 LLM 強化學習訓練的普及邁出了重要一步。


  • 博客地址:https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
  • 項目地址:https://github.com/agentica-project/deepscaler
  • 項目網站:https://agentica-project.com/
  • Hugging Face 模型:https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
  • Hugging Face 數據集:https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
  • Wandb 訓練日志:https://wandb.ai/mluo/deepscaler-1.5b?nw=nwusermluo

這項研究一經公布,受到網友廣泛好評,有網友表示:「DeepScaleR-1.5B-Preview 正在撼動人工智能領域。」

「DeepScaleR 開創了 AI 擴展的新時代。」

「開源界又贏了一局。」

還有人盛贊:「這才是研究者想要的東西。」

1. 小模型的反擊:DeepScaleR 的秘密

挑戰 RL 的極限

強化學習一直被視為大模型的 “專屬武器”,高昂的計算成本讓很多人望而卻步。研究團隊發現,假如直接復現 Deepseek-R1 的結果 (32K 上下文長度,8000 訓練步數),即使在一個 1.5B 的小模型上,需要的 A100 GPU 時長高達 70,000 小時。但研究團隊并未退縮,他們提出了一種巧妙的策略,讓 RL 的訓練成本降低至常規方法的 5%,最終只用了 3800 A100 GPU 小時和 4500 美元,就在 1.5B 的模型上訓練出了一個超越 OpenAI o1-preview 的模型,DeepScaleR 的秘密,在于提出了一個迭代式上下文擴展的訓練策略。

迭代式上下文擴展:小步快跑,突破瓶頸

在 RL 訓練中,上下文窗口的選擇至關重要。選擇一個比較長的上下文會導致訓練變慢,而選擇一個短的上下文則可能導致模型沒有足夠的上下文去思考困難的問題。

研究團隊在訓練前進行了先驗測試,發現錯誤答案的平均長度是正確答案的 3 倍。這表明,如果直接在大窗口上進行訓練,不僅訓練速度慢,效果也可能受限,因為有效訓練的字符(token) 數量較少。

基于這個發現,因此他們采用了迭代式上下文擴展策略:

  • 8K 上下文窗口:模型先在較短的上下文中簡化自己的推理,精進推理技巧。
  • 擴展至 16K & 24K:逐步加大窗口,讓模型適應更復雜的數學推理任務。

這種策略證明是有效的 —— 在第一輪 8K 上下文訓練后,模型的平均回答長度從 9000 字符降至 3000 字符,而 AIME 測試集上的正確率提高了 5%。隨著上下文窗口擴展至 16K 和 24K,模型更簡潔的回答方式使訓練時間至少提升了兩倍。

數據集:四萬道數學難題的試煉

團隊精心構建了一套高質量的數學訓練集,包括:

  • AIME(1984-2023)
  • AMC(2023 年前)
  • Omni-MATH & Still 數據集

數據篩選的關鍵步驟:

  • 答案提取:利用 gemini-1.5-pro-002 自動提取標準答案。
  • 去重:采用 sentence-transformers/all-MiniLM-L6-v2 進行語義去重,避免數據污染。
  • 過濾不可評分題目:確保訓練數據的高質量,使模型能夠專注于可驗證的答案。

獎勵函數:精準激勵模型進步

傳統的 RL 訓練往往使用過程獎勵模型(PRM),但容易導致 “獎勵濫用”,即模型學會取巧而非真正優化推理能力。為了解決這一問題,研究團隊選擇了跟 Deepseek-R1 一樣的結果獎勵模型(ORM),嚴格按照答案正確性和格式進行評分,確保模型真正提升推理能力。

2. 實驗結果:數據不會說謊

在多項數學競賽基準測試中,DeepScaleR-1.5B-Preview 展現了驚人的實力:

關鍵突破點:

  • DeepScaleR 在 AIME 2024 上超越 O1-Preview,證明了 RL 在小模型上的可行性。
  • 在所有測試集中,DeepScaleR 的平均表現遠超基礎模型,展現了強化學習的巨大潛力。

3. 關鍵發現:為什么 DeepScaleR 能成功?

(1)RL 并非大模型專屬,小模型同樣能崛起

DeepScaleR 的成功打破了強化學習只能用于大模型的迷思。研究團隊通過高質量的 SFT 數據,讓 1.5B 小模型的 AIME 準確率從 28.9% 提升至 43.1%,證明了小模型也能通過 RL 實現飛躍

(2)迭代式上下文擴展:比暴力訓練更高效

直接在 24K 上下文窗口中進行強化學習,效果遠不如逐步擴展。先學短推理,再擴展長推理,可以讓模型更穩定地適應復雜任務,同時減少訓練成本。

4. 結論:RL 的新紀元

DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強化學習中的無限潛力,也證明了高效訓練策略的重要性。團隊希望通過開源數據集、代碼和訓練日志,推動 RL 在 LLM 推理中的廣泛應用。

下一步,他們計劃在更大規模的模型上復現這一策略,并邀請社區共同探索 RL 的新可能。

或許,下一個挑戰 OpenAI 的模型,就藏在這樣一個小小的實驗之中。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-11 16:17:42

2024-12-09 12:10:07

2024-09-13 06:32:25

2025-11-14 09:31:41

2025-01-21 10:10:56

2025-02-03 14:17:27

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-02-12 12:04:54

2024-11-05 14:20:00

AI模型

2024-07-22 07:10:00

小模型機器學習蘋果

2024-09-18 09:17:00

OpenAI模型開源

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-19 15:00:00

模型開源

2024-11-25 17:23:10

2025-04-15 09:19:00

模型AI數據

2025-09-28 15:35:32

AI模型強化學習

2025-07-22 10:22:02

2025-01-10 12:58:37

2024-09-24 11:01:03

2025-02-19 13:50:00

明星編程軟件
點贊
收藏

51CTO技術棧公眾號

91热门视频在线观看| 国产偷国产偷亚洲清高网站| 一区二区三视频| 午夜欧美精品久久久久久久| 91精品国产乱码久久久久久久久| 欧美裸体视频| 欧洲精品视频在线观看| 日本电影免费看| 亚洲国产精品av| 国产一区亚洲二区三区| 国产精品99久| 国产麻豆电影在线观看| 日本不卡免费在线视频| 鲁片一区二区三区| 亚洲精品韩国| 国产精品亚洲不卡a| 国产高清久久| 成人中文字幕在线观看| 欧美a级片视频| 成人免费网视频| 欧美福利在线| 狠狠色综合色区| 亚洲美女黄色| 日本不卡一区二区三区视频| 99成人免费视频| 日韩欧美一区二区三区久久婷婷| 国产美女一区| 日韩精品最新在线观看| 日韩黄色片在线观看| 亚洲日本精品| 国产精品白丝av| 韩日视频在线观看| 久久先锋资源网| 成人性a激情免费视频| 一区二区三区国产| 无圣光视频在线观看| 欧美性猛片xxxx免费看久爱| 777电影在线观看| 日韩视频免费直播| eeuss鲁一区二区三区| 亚洲欧洲av一区二区| 精品久久毛片| 91精品国产电影| 国产精品国产一区| 免费成人av网站| 国产精品羞羞答答xxdd| 国产91xxx| 亚洲主播在线观看| 高清av在线| 日韩精品视频在线播放| 精品国模一区二区三区欧美| 国产成人亚洲综合青青| 欧美午夜在线视频| 一区二区在线高清视频| av电影天堂一区二区在线观看| 天天爱天天操天天干| 欧美日韩精品二区| 第四色日韩影片| 色妞久久福利网| 日本欧美三级| 国产综合精品一区二区三区| 国产一区二区三区精品视频| 182午夜在线观看| 在线欧美日韩国产| 日韩精品三区| 国产精品自拍网| 久久国产精品露脸对白| 自拍偷拍一区二区三区四区| 91成人看片片| 欧美jizz18| 亚洲自拍偷拍色图| 国产高清在线观看免费不卡| 台湾十八成人网| 日韩一区二区三区免费观看| 精品福利在线| 91麻豆国产语对白在线观看| 国产一区二区三区精品欧美日韩一区二区三区| 国产高潮免费视频| 91精品国产色综合久久不卡电影 | 欧美激情极品视频| 黄色另类av| 日韩精品一区二区三区色欲av| 色婷婷一区二区| 国产精品一区二区三区www| www.久久爱.cn| 欧美国产视频在线| 69av成人| 91免费在线观看网站| 久久综合成人精品亚洲另类欧美| shkd中文字幕久久在线观看| 久99九色视频在线观看| 丝袜亚洲精品中文字幕一区| 婷婷丁香六月天| 另类色图亚洲色图| 首页国产欧美久久| 日韩大片b站免费观看直播| 欧美成人高清视频| 九九在线精品视频| 黄色网页在线播放| 成人性生交xxxxx网站| 国产日韩欧美a| 欧美freesex| 日韩免费电影一区二区三区| 欧美网站在线观看| 精品中文一区| 久草综合在线观看| 亚洲图片在区色| 日韩精品久久久久久| 在线一级视频| 欧美中文字幕在线播放| 成人va在线观看| 深夜成人在线| 天天综合狠狠精品| 制服视频三区第一页精品| 成人精品影视| 老司机aⅴ毛片免费观看| 欧美激情久久久久久| 91亚洲国产成人精品一区二三| 川上优av中文字幕一区二区| 欧美三级电影在线播放| 欧美性大战久久久久久久| 亚洲a一区二区三区| 最新在线观看av网站| 国产精品久久在线观看| 亚洲精品日韩一| 宅男在线一区| 亚洲成人av免费看| 欧美另类暴力丝袜| jizz一区二区| 国产91在线精品| 久久久亚洲国产精品| 亚洲一区二区黄| 国产成人午夜视频| 国产一区二区三区四区五区3d| 日本黄色播放器| 亚洲美女视频网| 国产河南妇女毛片精品久久久| 欧美男男tv网站在线播放| 中文字幕在线亚洲精品| 亚洲精品视频网上网址在线观看| 麻豆精品一二三| 成人影院大全| 日本三级免费网站| 68精品久久久久久欧美| 亚洲激情男女视频| 久久久久久美女精品| 青青免费在线视频| 国产精品手机视频| 日韩欧美国产不卡| 国产一区二区影院| 亚洲精品一区av| 羞羞免费视频| 成人美女免费网站视频| 91国模大尺度私拍在线视频| 亚洲欧美久久| 国产经典一区| 18成人免费观看视频漫画| 国产精品久久77777| 欧美怡红院视频| 麻豆精品在线观看| 日韩黄色av| 在线免费中文字幕| 女人一区二区三区| 中文国产成人精品久久一| 国产精品视频一二三区 | 国产午夜福利视频在线观看| 久久精品亚洲94久久精品| 国产精品嫩草影院com| 欧美成免费一区二区视频| 黄色影院在线播放| 正在播放精油久久| 久久久久久中文| 精品久久久久久中文字幕一区奶水| 亚洲三级电影在线观看| 欧美momandson| 欧美jiizzhd精品欧美| 精品国产乱码久久久久| 亚洲女人天堂成人av在线| 中文字幕不卡在线播放| 欧美精品97| 成人黄色图片网站| 在线播放你懂的| 亚洲精美视频| 午夜精品久久久久久久久久久久| 一本大道av伊人久久综合| 国模娜娜一区二区三区| 亚洲人成网77777色在线播放 | 97se国产在线视频| 国产午夜精品久久久| 中文字幕一区二区三区乱码在线| 一区福利视频| 国产精品久久久久久久久久辛辛| 在线免费色视频| www.亚洲视频.com| 91精品久久久久久久久| 伊人精品在线观看| 在线观看国产91| 中文字幕第一区综合| 蜜桃视频在线观看一区| 日韩免费视频|