国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

只訓練數學,卻在物理化學生物戰勝o1!新強化學習算法帶來顯著性能提升,還緩解訓練崩潰問題

人工智能 新聞
來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

只訓練數學,卻在物理化學生物戰勝o1!強化學習提升模型推理能力再添例證。

來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

相比于傳統GRPO、RLOO等算法顯著緩解了訓練不穩定(甚至崩潰)的問題,并帶來顯著性能提升。

在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%,驗證了CPGD在穩定性與性能上的雙重優勢。

具體的,相較基礎模型QwenVL2.5-7B,基于CPGD和15k多模態數學數據MMK12訓練的模型MM-Eureka-CPGD-7B在MMK12測試集(包括數學,以及訓練數據分布外領域的物理、化學、生物)上平均提升21.8%,在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%,展現了優異的泛化能力。

模型規模擴展到MM-Eureka-CPGD-32B上則進一步在MMK12測試集上超越了o1,值得注意的是,盡管MM-Eureka-CPGD-32B只在數學數據集上進行RL訓練,但在物理、化學和生物等學科均超過了o1

圖片

△不同模型在MMK12測試集中不同學科上的表現

今年2月,他們推出MM-Eureka系列是最早在多模態領域利用大規模Rule-based RL復現DeepSeek-R1關鍵能力(例如Visual aha-moment、穩定的回答長度增長)的工作之一,并將模型、代碼、高質量多模態數據集MMK12、過程獎勵模型MM-PRM全部開源,發布三個月以來獲得了學術界和開源社區廣泛關注——模型已被下載超10000次,相關代碼庫獲得超1000 star,論文引用近100次。

近日,MM-Eureka系列工作在底層訓練框架、高質量多模態推理數據、高效穩定的RL訓練算法和過程獎勵模型等方面持續耕耘,在近期取得重要進展。

多模態強化學習框架

基于OpenRLHF,團隊構建了一個高效、可擴展的多模態強化學習框架,支持Qwen-VL、InternVL等多種模型與RL算法,包括GRPO、REINFORCE++、RLOO,以及提出的新型RL算法CPGD,并已成功訓練出Qwen2.5VL-32B、InternVL2.5-38B等大型模型。

該框架相較于已有方案(如R1-V),具備更強的可擴展性與穩定性,為大規模多模態強化學習提供了基礎設施支撐。

強化學習訓練的穩定性突破:CPGD算法

在第一階段的探索中,團隊發現移除新策略與參考模型之間的KL散度項后,規則型強化學習訓練在性能上限和資源效率方面表現更優。然而,這也極易導致訓練過程不穩定甚至崩潰。

為此,團隊在GRPO算法的基礎上,提出了雙邊裁剪、online filter以及兩階段訓練等應對方案,構建了MM-Eureka-7B與MM-Eureka-32B模型,并獲得良好結果。

盡管上述方法在實踐中有效,但仍存在繁瑣且治標不治本的問題。團隊在深入分析后發現,問題核心在于新舊策略比值的極端高值行為

為此,他們提出新算法CPGD(Clipped Policy Gradient Optimization with Policy Drift),主要特性包括:

策略比值對數化處理:在原始PPO損失基礎上,團隊將策略比值取對數,以削弱異常高值的影響,使訓練過程更穩定,解決了現有的規則型強化學習方法(如 GRPO、REINFORCE++、RLOO)常面臨訓練崩潰與梯度不穩定的問題。

引入策略漂移項(Policy Drift):在損失函數中引入新舊策略之間的KL散度項,有效約束策略變化幅度。團隊證明了CPGD對策略漂移的控制能力優于PPO,并具有理論收斂性保障。

細粒度、可實現的損失函數形式:團隊設計了按token粒度計算的損失函數,可拆分的裁剪項結合加權優勢函數,既便于引入GRPO式歸一化,也兼容online filter策略的等價加權方式。

新型KL估計器:在K3估計器基礎上,團隊構造了新的KL估計方式,以在保持梯度方向準確性的同時緩解高方差問題。

借助CPGD,團隊成功訓練出MM-Eureka-CPGD-7B/32B兩個版本的推理模型,不僅顯著提升了穩定性,還進一步提高了性能表現。

值得注意的是,近期Minimax發布的M1模型中提出的CISPO優化算法也提出了相應的訓練不穩定瓶頸和基于policy gradient的改進方案,與在五月開源的CPGD算法有異曲同工之妙。

顯著性能提升,泛化能力優越

在多個數據集上的測試表明,CPGD帶來的性能提升顯著:

  • 相較基礎模型QwenVL2.5-7B,MM-Eureka-CPGD-7B在 MMK12上提升21.8%,在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%,展現了較好的泛化能力;
  • 對比主流強化學習算法(GRPO、REINFORCE++、RLOO等),CPGD在穩定性、性能和泛化能力上全面領先,;在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%;
  • 在與同規模開源模型對比中,MM-Eureka-CPGD-32B模型已接近閉源模型的表現。

圖片

△不同模型的表現

其中Overall的計算是以QwenVL2.5-7B為基準。表現最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)

圖片

△不同模型的表現

其中Overall的計算是以QwenVL2.5-32B為基準。表現最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)

高質量多模態數學數據集MMK12

為解決現有數據集題型單一、答案不準的問題,團隊推出了MMK12數據集,覆蓋小學至高中階段、總計超過15000道多模態數學推理題,涵蓋幾何、函數、圖形推理等典型領域。

每道題都包含:

  • 圖文題干與配圖;
  • 標準答案;
  • 結構化的思維鏈(Chain-of-Thought)解題過程。

評測集還額外提供了包含數學、物理、化學、生物等學科的2000道選擇題,支持跨學科、多模態推理評測。目前,MMK12已被下載超1700 次,成為多模態推理任務中的重要基準。

圖片

MM-PRM:自動化過程監督,推理路徑更可信

推理不應只關注最終答案,更重要的是每一步是否合理。為此,團隊推出 MM-PRM(多模態過程獎勵模型),關注模型“如何推理”的過程本身。

三階段全自動過程監督流程:

使用500萬條數據訓練獲得推理增強的MM-Policy模型;

結合MCTS自動生成超過70萬條推理過程標注;

基于上述數據訓練過程獎勵模型MM-PRM,對每一步推理進行評估與引導。

它具備以下優勢:

  • 高效生成,無需人工標注:僅用1萬道K12數學題,即可生成大規模過程監督數據;
  • 顯著提升推理路徑質量:模型推理步驟更加嚴謹,而非僅靠“撞對”答案;
  • 跨任務泛化性強:在MMK12準確率提升近9%,在MathVista、OlympiadBench等挑戰集上同樣表現優異;
  • 全模型適用:適配從8B到78B的多種規模模型;
  • 訓練穩定性強:結合小學習率與軟標簽策略,有效降低訓練崩潰風險。

對強化學習與推理能力的思考

推理能力能否脫離知識獨立發展?

團隊觀察到:強化學習顯著提高了模型在“曾經答對過”的問題上的表現,但對“始終無法答對”的問題,效果有限。這表明RL主要在優化已有知識調用和推理路徑的組織上發揮作用,但無法替代知識本身的缺失

RL比SFT泛化能力更強

通過實驗,他們發現RL在跨學科任務(如物理、化學、生物)中的泛化能力遠超SFT或CoT-SFT。以數學與物理為例,RL分別帶來12.8和10.8 分的提升,而其他方法幾乎無效。這進一步說明,強化學習可能是提升模型邏輯推理能力的關鍵路徑

PRM與RL的結合具備潛力,值得進一步探索

目前的強化學習訓練多聚焦于最終答案的準確性,尚未充分利用推理過程中的中間監督信號。團隊認為,PRM有望成為強化學習訓練的重要補充。通過對模型每一步推理過程的打分與引導,PRM可以提供更細粒度的反饋,幫助模型在策略優化中更穩定地提升推理質量與可解釋性。未來,團隊計劃探索將PRM與RL框架相結合,以構建“結果+過程”雙重優化的多模態推理體系。這不僅有助于提升模型在復雜推理任務中的穩健性,也可能為構建可控、安全的通用推理能力奠定基礎。

他們在策略優化與過程監督兩個核心方向,分別推出MM-Eureka-CPGD 與MM-PRM,構建了一套高度自動化、可復現、訓練穩定、效果顯著的多模態推理方案。

該方案實現了準確率與推理長度的穩定提升;推理路徑的可控化與解釋性增強,以及在多個任務與模型規模上的廣泛適配與泛化能力。

目前已開源所有模型、代碼與數據,并提供完整技術報告,歡迎社區參與共建。未來,團隊將持續推進更高水平的多模態推理訓練與系統化優化,敬請關注!

開源代碼:

https://github.com/ModalMinds/MM-EUREKA

https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm

技術報告:

https://arxiv.org/abs/2503.07365

https://arxiv.org/abs/2505.12504

https://arxiv.org/abs/2505.13427

MMK12數據集:

https://huggingface.co/datasets/FanqingM/MMK12

模型權重:

https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B

https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B

https://huggingface.co/Zkkkai/CPGD-7B

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-18 10:37:00

強化學習AI模型

2025-01-21 09:00:00

2025-05-28 02:25:00

2022-11-02 14:02:02

強化學習訓練

2025-07-09 01:22:00

AI強化學習監督學習

2025-02-20 09:11:28

2024-09-13 06:32:25

2025-06-30 09:08:00

2024-09-14 14:00:00

AI模型

2025-11-10 08:46:00

AI模型訓練

2021-07-27 15:55:01

人工智能機器學習技術

2025-06-25 09:28:38

2024-03-15 15:26:00

AI數據

2025-01-17 13:41:24

2024-10-11 13:30:00

2023-04-23 10:12:14

算法強化學習

2025-10-23 09:05:50

2020-04-15 16:44:38

谷歌強化學習算法

2025-11-18 07:00:00

2025-09-24 08:53:10

點贊
收藏

51CTO技術棧公眾號

91免费观看国产| 精品一区二区三区久久| 制服丝袜亚洲精品中文字幕| 国产精品免费观看久久| 一区二区三区四区五区在线 | 亚洲奶大毛多的老太婆| 黄色直播在线| 91浏览器在线视频| 婷婷久久伊人| 五月激情综合| 最近2019免费中文字幕视频三| 日本高清视频在线观看| 亚洲女厕所小便bbb| 人人干视频在线| 日韩精品乱码免费| 91在线观看免费高清| 免费福利视频一区| 亚洲欧美日韩国产中文专区| 美女国产在线| 狠狠色狠狠色综合日日五| 四虎精品一区二区永久在线观看| 国产精品1区2区| 色一情一乱一伦一区二区三欧美 | 精品久久久久香蕉网| 四虎电影院在线观看| 欧美国产精品一区二区| 国产女教师bbwbbwbbw| 日本91福利区| 久久成人资源| 亚洲美女色禁图| 99久久自偷自偷国产精品不卡| 精品国产精品| 欧美亚洲成人网| 国产精品45p| 久久久久久久一区二区| 精品一区二区三区在线观看视频| 亚洲图片欧美午夜| 姬川优奈av一区二区在线电影| 亚洲国产私拍精品国模在线观看| 色综合999| 日韩国产在线看| 精品极品在线| 亚洲男人第一网站| 精品欧美一区二区三区在线观看| 中文字幕久久久av一区| www.久久草.com| 欧美国产日韩在线| 亚洲v天堂v手机在线| 日韩av电影手机在线| 日韩精品诱惑一区?区三区| 亚洲a成v人在线观看| 欧美69视频| 久久婷婷开心| 精品一区在线看| 日韩精品一区二区三区电影| 爽爽淫人综合网网站| 日本一区视频在线观看| 国产精品主播| 亚洲欧洲在线一区| 色网在线免费观看| 亚洲免费伊人电影在线观看av| sm久久捆绑调教精品一区| 色噜噜久久综合伊人一本| 日本综合在线| 欧美tk丨vk视频| 国产精品第一国产精品| 午夜精品福利视频| 我不卡影院28| 日韩激情视频| 91在线看国产| 午夜视频99| 在线成人午夜影院| 在线男人天堂| 青青草视频一区| 久久99欧美| 97精品国产91久久久久久| 色综合久久天天| 欧美理论电影大全| 日本888xxxx| 亚洲免费高清视频| 九九久久久久99精品| 国产精品美女久久久久久| 国产cdts系列另类在线观看| 日韩一二三四区| 黄色精品视频| 国产精品电影一区| 久久一二三四| 伊人久久亚洲| 91wwwcom在线观看| 欧美激情奇米色| 成人免费三级在线| 性xxxx丰满孕妇xxxx另类| 在线不卡欧美精品一区二区三区| 成人在线视频成人| 日韩一区二区三区免费看 | 深夜视频一区二区| 欧美日韩一区二区三区免费| 91免费精品国自产拍在线不卡| 黄色国产一级视频| 精品久久久久久久久久国产| av中文天堂在线| 久久视频这里只有精品| 2020日本不卡一区二区视频| 欧美女同网站| 欧美视频在线观看免费网址| 精品久久久久一区二区三区| 一区二区三区在线观看欧美| 你懂的视频在线免费| 欧美午夜激情视频| 九色91在线| 97**国产露脸精品国产| 国产成+人+日韩+欧美+亚洲| 日本一本在线免费福利| 国产一区二区中文字幕免费看| 亚洲日本成人在线观看| 精品在线观看入口| 欧美一区二区视频| 91免费看蜜桃| 天美av一区二区三区久久| 日本一区二区久久精品| 尤物视频一区二区| 韩日一区二区| 久热这里只精品99re8久 | 欧美一区二区三区免费看| 日韩少妇内射免费播放18禁裸乳| 欧美精品一级二级| 日韩中文字幕高清在线观看| 密臀av一区二区三区| 日本熟妇人妻xxxxx| 欧美一级精品在线| 五月婷婷亚洲| 午夜伦伦电影理论片费看| 国产一区二区三区在线视频| 亚洲女人av| 黄视频在线播放| 国产精品视频久| 国产欧美精品区一区二区三区 | 国产精品亚洲第一区在线暖暖韩国| avtt亚洲| 成人中心免费视频| 亚洲午夜精品在线| 日本天堂一区| 午夜免费看视频| 欧美理论片在线观看| www.av亚洲| 国产精品xxx| 成人免费性视频| 伊是香蕉大人久久| 国产91在线观看丝袜| 麻豆精品蜜桃| 国产69精品久久久久久久| 亚洲深夜福利视频| 懂色av一区二区夜夜嗨| 在线免费看h| 国产对白在线播放| 欧美精品一区二区三区久久久| 久久一二三四| 亚洲少妇视频| 黄色特一级视频| 色999日韩欧美国产| 94色蜜桃网一区二区三区| 黄色成人小视频| 男人操女人免费| 97精品免费视频| 亚洲人成在线观看一区二区| 成人网18免费网站| 一级黄色在线| 国产精品视频一区二区三区经| 欧美日韩亚洲综合在线| 首页欧美精品中文字幕| 毛片电影在线| 青青草原成人网| 97色在线视频观看| 亚洲国产va精品久久久不卡综合| 婷婷六月综合| av网站导航在线观看免费| 中文字幕欧美日韩一区二区三区| 国产一区二区三区在线看| 国产精品少妇自拍| 日韩欧美二区| 亚洲妇熟xxxx妇色黄| 国产免费一区二区视频| 久久久亚洲影院| 一级黄色特级片| 国产精品一区二区久久| 欧美日韩免费一区二区三区 | 亚洲色无码播放| 久久久噜噜噜久噜久久综合| 精品精品久久| 性欧美videoshd高清| 成人免费观看cn| 国产国产精品人在线视| 在线不卡欧美精品一区二区三区| 国产精品1024| 国产欧美日韩在线观看视频| 国产在线1区| 成人在线观看a| 18成人免费观看网站下载| 精品香蕉一区二区三区| 中文字幕一区二区在线观看|