国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

首次結合RL與SFT各自優勢,動態引導模型實現推理?效訓練

人工智能 新聞
華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

劉子儒博士畢業于香港城市大學數據科學專業,導師為趙翔宇教授及數學家周定軒教授。目前就職于華為香港研究所小藝團隊,負責 RLVR 算法與擴散語言模型方向的研究。龔成目前在香港城市大學攻讀博士學位,導師為張青富教授。期間在華為香港研究所小藝團隊進行研究實習,負責RLVR算法方向的研究。

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在復雜推理方面取得了顯著進展。該方向核心是一種名為 ZERO-RL 的訓練方法,即采用可驗證獎勵強化學習(RLVR)逐步提升大模型在強推理場景 (math, coding) 的 pass@1 能力。相較于依賴高質量人工數據或從強大模型中提煉出的思維鏈的監督微調(SFT),基于強化學習(RL)的后訓練在增強推理能力方面表現出更強的泛化性。

然而,目前以 Group Relative Policy Optimization (GRPO) 為代表的 RLVR 方法通常面臨兩個局限點:1. 訓練數據難度與模型能力之間存在差距,導致獎勵稀疏從而阻礙了學習過程的穩定性。2. 單純基于 On-policy 強化學習算法的樣本效率低下,這對于端側小模型而言尤為突出。

為此,華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

圖片

GHPO 不僅能大幅提升端側模型的樣本利用效率,同時針對性緩解了目前 RLVR 方法中的獎勵稀疏現象。通過難度感知與動態引導模塊設計,GHPO 不僅提升了模型訓練過程中的穩定性,并且在 6 個不同的開源數學推理 Benchmark 上實現提升,尤其在 GPQA-Diamond 和 AMC23 上分別提升 9% 和 10%。該方法進一步被證明可以適用于不同難度分布的訓練數據集與多個模型類別。

圖片

具體方法

在 RL 中引入模仿學習

源自于對在線強化學習算法與基于模仿學習方法的思考,該團隊發現在傳統 GRPO 算法的訓練過程中,只有正確答案本身被用來提供監督信號,而標準解題過程未被利用。因此,團隊提出了一個全新思路:通過將標準解題過程直接整合到強化學習循環中,來解決之前提到的獎勵稀疏問題,并進一步提出假設:模型訓練過程中通過標準解題過程的提示,從而獲得有效的學習信號。并且該方法能提升模型在推理任務上的泛化能力。

后續通過一系列的實驗證明該假設確實可行。

GHPO 算法框架

然而,以上的離線方案需要預先將一組訓練數據集中的樣本進行難度劃分,并始終對其應用固定比例的提示。從而導致該方案無法實現全局最優的效果與有效的拓展。因此,該團隊進一步提出了引導式混合策略優化(GHPO),實現了動態樣本難度評估,并自適應地在強化學習和模仿學習之間切換。

圖片

如圖所示,GHPO 由兩個核心模塊組成:

  • 自動化難度檢測該模塊評估當前問題的內在難度,從而決定后續的學習過程。該模塊不需要提前標準或引入其他大模型作為輔助,僅需要基于每個樣本生成的解答的分布即可進行難度分類。該方案既能實現高效訓練且隨模型能力同步演進。
  • 自適應提示切換根據檢測到的難度,該模塊通過整合不同級別的標準解題路徑來引導模型進行探索學習。團隊提出了一種具有多階段指導的自適應提示優化策略,該策略動態調整提示比例 ω。這種動態提示注入的核心思想是一個由學習階段控制的線性調度。訓練過程中會首先應用一小部分真實解作為初始提示,如果模型未能生成正確響應,提示的長度將在后續階段逐漸增加。

基于以上的創新方案,GHPO 的目標函數可以表達為以下形式:

圖片

這種創新方法確保僅在模型真正需要時才提供對應指導,為模型當前能力范圍內的任務保留了有價值的探索,同時為更具挑戰性的場景提供了自適應的優化。

評測表現全面超越 GRPO 算法,代碼數據全面開源

GHPO 的代碼實現基于 Openr1 項目,訓練框架的選擇為 TRL,使用 vLLM 進行推理加速。團隊在 TRL 的代碼邏輯上直接實現了 GHPOTrainer,后續有望在 TRL 后續版本上集成。

實驗設計上,基于 Qwen2.5-7B-base 模型進行了多種 RLVR 算法的實現,包括 GRPO、DeepScaleR 的課程學習,以及固定比例提示作為基線,并基于開源數據準備了兩種不同難度設定的訓練集,驗證了 GHPO 算法在 6 個主流數學 Benchmark 上的表現:

圖片

圖片

結果表明 GHPO 算法相較于 GRPO 可以實現平均 4.5% 的性能提升。

圖片

同時 GHPO 在訓練過程中有著更加穩定的梯度更新。并且團隊進一步證明該算法可以應用到其他模型上,如 Qwen2.5-Math-7B。

進一步提供了詳細的案例展示:

圖片

總結與展望:GHPO 推動了強化學習與 SFT 之間的借鑒融合

自從 DeepSeek-R1 問世后,以 GRPO 為代表的強化學習算法一度成為大模型后訓練的熱點,相較于 SFT,被認為能帶來更強的模型泛化能力。GHPO 不僅以一種巧妙地方式緩解了 RLVR 訓練獎勵信號稀疏帶來的訓練不穩定問題,同時實現了 on-policy 強化學習與模仿學習的自適應調整,為社區提供重新看待 SFT 與 RL 的視角以及提供兩者未來深度融合的可能性,助力人類進一步探索人工智能本質。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-06-06 04:10:00

LLM人工標注RL

2025-09-22 10:44:20

2025-10-28 09:21:02

2025-09-16 10:09:00

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-07-22 08:50:00

AI模型框架

2025-01-21 09:36:51

2025-02-10 09:35:00

2025-09-10 09:10:00

2025-06-04 13:56:06

英偉達訓練模型

2024-11-01 20:25:28

2025-08-04 08:49:00

2025-06-05 08:40:00

2025-05-12 14:23:42

AI算法訓練

2025-06-10 09:05:00

2025-03-06 01:00:00

2023-01-05 09:33:37

視覺模型訓練

2025-11-18 10:00:56

點贊
收藏

51CTO技術棧公眾號

一区二区三区视频在线观看| 欧美电影完整版在线观看| 精品国偷自产一区二区三区| 欧美丰满少妇xxxxx| 欧美一级艳片视频免费观看| 精东粉嫩av免费一区二区三区| 日韩欧美2区| 成人h小游戏| 日韩亚洲在线视频| 成人妇女免费播放久久久| 日韩www在线| 久久久精品国产99久久精品芒果| 久久久久久久久成人| 国产一二三区在线| 黄色一级片国产| 久久99导航| 91精品国产高清久久久久久久久| 亚洲永久精品大片| 99热这里都是精品| 亚洲色诱最新| 日本天堂在线观看| 成年人午夜视频在线观看| 91久久久一线二线三线品牌| 粗暴蹂躏中文一区二区三区| 在线观看成人免费视频| 91免费在线播放| 麻豆国产精品一区二区三区| 97偷自拍亚洲综合二区| 最新国产精品精品视频| 川上优av中文字幕一区二区| 亚洲女人天堂在线| 米奇精品一区二区三区| 中文字幕在线影院| 妞干网视频在线观看| 久久久久久久久久久免费| 一级做a爰片久久毛片美女图片| 欧美日韩国产成人在线免费| 免费成人在线网站| 韩国av一区二区| 久久久99免费| 亚洲高清中文字幕| 91精品一区二区三区久久久久久| 欧美乱妇15p| 亚洲最新视频在线| 国内精品美女av在线播放| 国产成人久久久| 久久精品日产第一区二区三区精品版 | 欧美一级日韩不卡播放免费| a美女胸又www黄视频久久| 日本黄色精品| 日韩成人综合网站| 奇米一区二区| 国模私拍国内精品国内av| 成人影院网站| a一区二区三区亚洲| 动漫视频在线一区| 国产麻豆精品久久| 午夜精品电影| 国产精品综合二区| 亚洲女同女同女同女同女同69| 亚洲精品国产视频| 亚洲欧美成人一区二区三区| 国产精品视频看| 欧美黄色一级| eeuss国产一区二区三区四区| 青青热久免费精品视频在线18| 99精品国自产在线| 老汉色老汉首页av亚洲| 日韩黄色大片| 国产精品尤物| 成av人片一区二区| 亚洲男人天堂一区| 在线免费亚洲电影| 午夜精品123| 精品国产欧美一区二区| 日韩性生活视频| av色综合网| 高清国产在线一区| 中日韩美女免费视频网址在线观看 | 亚洲欧美自拍另类日韩| 免费的av电影| 日本亚洲一区| 欧美男男激情videos| 国产欧美自拍一区| 亚洲国内精品| 国产精品免费久久| 91精品国产91综合久久蜜臀| 久久精品久久久久久| 国产尤物91| 久草在线新视觉| 91麻豆精品国产91久久久更新资源速度超快| 中文字幕人成乱码在线观看 | a级黄色小视频| 电影在线高清| 欧美一区91| 性做久久久久久免费观看欧美| 欧美日韩亚洲综合| 久久夜色精品国产| 日韩高清dvd| 500福利第一精品导航| 精精国产xxxx视频在线野外| 久久99影视| 成人国产精品免费观看视频| 91精品欧美综合在线观看最新| 91亚洲国产成人久久精品网站| 妞干网在线视频| 黄页网站免费在线观看| cao在线视频| 香蕉精品视频在线观看| 国产精品精品国产色婷婷| 一区二区三区视频观看| 精品视频一区二区三区四区| 免费看黄视频网站| 久久久久观看| 亚洲欧美一区二区不卡| 国产精品青草久久久久福利99| 91人成在线| 日本少妇精品亚洲第一区| 老司机精品导航| 欧美美女一区二区| 国产精品日韩高清| 国产私人尤物无码不卡| 自拍偷拍欧美| 欧美色另类天堂2015| 成人免费淫片视频软件| 黄色电影免费在线看| 免费视频一区| 亚洲人成电影网站色xx| 免费国产一区二区| 在线中文字幕电影| 久久精品在线| 亚洲国产精品999| 一卡二卡三卡视频| 日韩视频一二区| 亚洲精品成人天堂一二三| 亚洲一区二区三区视频| 国产成人免费9x9x人网站视频 | 国产精品天美传媒| 欧美在线视频免费播放| 欧美色图另类| 国产精品自拍网站| 精品午夜一区二区| 国产亚洲欧美日韩精品一区二区三区| 99精品黄色片免费大全| 欧美精品在线免费| 91欧洲在线视精品在亚洲| 亚洲成色精品| 亚洲欧美激情在线视频| 依人在线免费视频| 亚洲视频综合| 欧美在线免费视频| 黄色视屏网站在线免费观看| 日韩久久99| 日韩av高清在线观看| 亚洲乱码中文字幕综合| 成人性教育视频在线观看| 污污视频在线| 国产精品国产自产拍高清av王其| 国产日韩在线观看av| 日本综合字幕| 午夜精品在线看| 亚洲欧洲日韩精品| 99热在线精品观看| 韩国一区二区电影| 国产精品久久一区二区三区不卡 | 91精品天堂福利在线观看 | 中文字幕在线亚洲三区| 亚洲精品一级二级三级| 亚洲欧美日韩成人| 八戒八戒神马在线电影| 精品免费99久久| 中文av在线播放| 国产曰批免费观看久久久| 国产精品美女www爽爽爽视频| 在线观看涩涩| 欧美日本在线一区| 日本高清网站| 91丨porny丨首页| 热re99久久精品国99热蜜月| 日韩欧美视频专区| 日韩专区中文字幕| 国产经典三级在线| 亚洲成人av资源网| 91国内外精品自在线播放| 日韩一级二级三级| 91网在线观看| 国产欧美一区二区精品性色| 男女啪啪免费观看| 日本麻豆一区二区三区视频| 国产欧美日韩专区发布| 欧州一区二区三区| 久久中文字幕一区| av动漫精品一区二区| 91成人国产在线观看| 外国电影一区二区| 国产精品福利在线观看网址| 精品国产导航| 99se婷婷在线视频观看| 欧美日韩激情在线一区二区三区| 国产精品户外野外|