国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

發布于 2025-1-9 11:50
瀏覽
0收藏

OpenAI o1 和 o3 模型的發布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的Scaling Law 逐漸受到質疑的今天,基于探索的強化學習有望帶來新的 Scaling Law。


近日,清華大學 NLP 實驗室聯合上海 AI Lab,清華大學電子系及 OpenBMB 社區提出一種新的結合過程獎勵的強化學習方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人員不依賴任何蒸餾數據和模仿學習,僅用 8 張 A100,花費一萬塊錢左右,不到 10天 時間,就能高效訓練出一個數學能力超過 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。


具體而言,研究人員利用 Qwen2.5-Math-7B-Base 作為基座模型,訓練出了新模型 Eurus-2-7B-PRIME ,并在美國 IMO 選拔考試 AIME 2024 上的準確率達到 26.7%,大幅超越 GPT-4o,Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct,且僅使用了 Qwen Math 數據的 1/10。其中,強化學習方法 PRIME 為模型帶來了 16.7% 的絕對提升,遠超已知的任何開源方案。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

該項目一經開源就在海外 AI 社區爆火,短短幾天 Github 取得 300+ star。

未來,基于 PRIME 方法和更強的基座模型有潛力訓練出接近 OpenAI o1 的模型。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區


清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區


 ?  技術 Blog 鏈接:

?? ???https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f??

 ?  GitHub 鏈接:

?? ??https://github.com/PRIME-RL/PRIME??

 PRIME 方法介紹  

長久以來,開源社區嚴重依賴數據驅動的模仿學習來增強模型推理能力,但這種方法的局限也顯而易見——更強的推理能力需要更高質量的數據,但高質量數據總是稀缺,使得模仿和蒸餾難以持續。雖然 OpenAI o1 和 o3 的成功證明了強化學習有著更高的上限,但強化學習有著兩個關鍵挑戰:(1)如何獲得精準且可擴展的密集獎勵;(2)如何設計可以充分利用這些獎勵的強化學習算法。


PRIME 算法從隱式過程獎勵(implicit process reward)的思想出發解決這兩個問題。隱式過程獎勵模型可以僅在輸出獎勵模型(outcome reward model, ORM)的數據,即答案的最終對錯上進行訓練,而隱式地建模過程獎勵,最終自動訓練出一個過程獎勵模型,這整個過程都有嚴格的理論保證。


詳細推導見:https://huggingface.co/papers/2412.01981

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

基于隱式過程獎勵模型的這種性質,研究人員指出將其應用于強化學習有三大優勢:

1. 過程獎勵:隱式過程獎勵模型能夠為每個 token 提供價值估計,在提供過程獎勵的同時無需訓練額外的價值模型(value model)

2. 可擴展性:隱式過程獎勵模型只需結果標簽即可在線更新。所以,我們可以結合策略模型采樣與結果驗證器來直接更新PRM,有效緩解分布偏移與可擴展性問題。

3. 簡潔性:隱式過程獎勵模型本質上就是一種語言模型。在實踐中,研究人員發現可以直接用初始的策略模型初始化 PRM。


隱式過程獎勵解決了PRM在大模型強化學習中怎么用,怎么訓,怎么擴展的三大問題,甚至不需要訓練額外的獎勵模型就可以開始強化學習,易用性和可擴展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強化學習算法,能夠將每個token的過程獎勵無縫應用于強化學習流程中。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區圖片

  實驗結果  

研究人員詳細比較了PRIME算法和基線方法。

相比于僅用結果監督,PRIME有著 2.5 倍的采樣效率提升,在下游任務上也有著顯著提升。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

研究人員還驗證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優于固定不更新的PRM,這也證明了PRIME算法設計和合理性。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

此外,研究人員還額外收集數據,基于 Qwen2.5-Math-Instruct 訓練了 SOTA 水平的 EurusPRM,能夠在 Best-of-N 采樣中達到開源領先水平。

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

  Showcase 介紹  

Question1:

AIME 2024試題,Claude-3.5-Sonnet做錯

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

Answer1:

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

Question2:

Which number is larger? 9.11 or 9.9?

Answer2:

清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理-AI.x社區

強化學習是連接已有智能體(大模型)和現實世界(世界模型,具身智能)的橋梁,以及將世界反饋內化為模型智能的路徑,將在下一代人工智能的發展中起到重要作用。PRIME 算法創新性地將隱式過程獎勵與強化學習結合,解決了大模型強化學習的獎勵稀疏問題,有望推動大模型復雜推理能力的進一步提升。

本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/XueRtZ2q7Yse1jddbbi35Q??

已于2025-1-9 12:00:20修改
收藏
回復
舉報
回復
相關推薦
丁香影院在线| 欧美一区二区三区红桃小说| 超碰成人在线观看| 91视频com| 综合久久久久| 亚洲综合色网站| 国产精品久久中文| 欧美亚洲另类激情另类| 男人资源网站| 激情综合网站| 午夜在线a亚洲v天堂网2018| 欧美三级电影在线看| 精品伊人久久大线蕉色首页| yellow91字幕网在线| 先锋a资源在线看亚洲| 欧美性受xxxx白人性爽| 一区在线影院| 久久久国产一区二区三区四区小说 | 国产精品波多野结衣| 都市激情亚洲一区| 337p粉嫩大胆噜噜噜噜噜91av | 国产老女人精品毛片久久| 亚洲美女在线看| 免费人成自慰网站| 亚洲视频精选| 亚洲毛片av在线| 95av在线视频| 激情国产在线| 国产亚洲午夜高清国产拍精品| 57pao国产成人免费| 日韩欧美久久| 色综合欧美在线| 中文字幕剧情在线观看一区| 97欧美成人| 亚洲伊人色欲综合网| 欧美精品欧美精品系列c| 黄色亚洲网站| 最近2019中文字幕第三页视频| 超碰超碰在线观看| 99成人免费视频| 在线观看欧美日韩| y4480在线8影院| 麻豆国产一区二区| 欧美性视频在线| 禁断一区二区三区在线| 亚洲综合中文字幕在线| 亚洲尤物精选| 久久99国产精品一区| 亚洲97av| 亚洲国产高清自拍| 激情五月色综合亚洲小说| 一本综合久久| 伊人狠狠色丁香综合尤物| 国产成人在线网站| 亚洲综合中文字幕68页| 中文高清一区| 欧美一级高清免费播放| 国产精品欧美在线观看| 高清av免费一区中文字幕| 国产精品久久久久久久久久辛辛| 色88888久久久久久影院野外| 国产高清www| 中文字幕不卡在线观看| 亚洲v国产v| 日本久久一区| 911国产精品| 成人伊人222| 色噜噜夜夜夜综合网| 国产99在线| 久久久日本电影| 日本片在线看| 精品人伦一区二区三区蜜桃免费| 久久久久99精品成人片| 国产精品无人区| 国产精品久久久久一区二区国产| 国产午夜精品理论片a级大结局| 国产bdsm| 国产日韩精品一区| 毛片免费在线| 亚洲欧美日韩在线播放| 亚洲一二区在线| 牛牛国产精品| 91高清免费视频| а√天堂资源国产精品| 国产精品久久久久久久美男| 日本午夜一区二区| 国产99视频精品免费视频36| 激情成人午夜视频| 麻豆亚洲一区| 国产精品扒开腿做爽爽爽软件| 性欧美亚洲xxxx乳在线观看| 成人精品电影在线| 成人在线小视频| 欧美女王vk| 久久人人爽人人| 夜久久久久久| 蜜桃免费在线视频| 久久九九99视频| 黄网站在线播放| 欧美日韩一区不卡| 在线精品视频一区| 亚洲五月六月| 色拍拍在线精品视频8848| 国产激情一区| 最新精品视频| 欧美日韩国产免费一区二区 | 欧美优质美女网站| 亚洲mv在线| 一个色综合av| 78精品国产综合久久香蕉| 精品久久精品久久| 亚洲视频每日更新| 欧美aaaaaaaa| 欧美激情2020午夜免费观看| 国产原创一区| 欧美激情导航| 欧美日韩精品中文字幕| 成人h动漫精品一区二区器材| 久久久久福利视频| 91亚洲精品一区二区乱码| 欧美国产日韩激情| 欧美精品粉嫩高潮一区二区| 国产视频中文字幕在线观看| 国产精品入口尤物| 国产精品国产三级国产普通话蜜臀 | 东京久久高清| 综合精品久久久| 精品区一区二区| 你懂的在线网址| 色综合久久88色综合天天看泰| 午夜无码国产理论在线| 亚洲欧美中文字幕| 91另类视频| 亚洲欧洲日韩精品| 欧美日韩和欧美的一区二区| 久久一区二区三区电影| 2014亚洲精品| 久久亚洲a v| 欧美性生活一级| 在线观看成人av| 91精品国产欧美一区二区18| 免费a在线看| av在线导航| 亚洲午夜国产一区99re久久| 国产剧情一区二区在线观看| 中文字幕乱码免费| 91精品福利在线一区二区三区| 很黄很黄激情成人| 在线免费看黄| 亚洲美女av网站| 蜜桃av一区二区在线观看| 国产h视频在线播放| 中文字幕一区二区三区在线不卡| 奇米一区二区| 99草草国产熟女视频在线| 亚洲免费在线视频| 日本天堂一区| 中文字幕电影在线观看| 国产精品第一页在线| 六月婷婷一区| av天堂永久资源网| 夜夜揉揉日日人人青青一国产精品| 美女福利一区| 精品久久久久久亚洲| 欧美三级日韩在线| 久久一区视频| 日韩一区二区三区不卡视频| 97国产在线视频| 亚洲欧美日韩精品久久久久| 红桃成人av在线播放| 天堂在线中文字幕| 久久国产精品-国产精品| 91麻豆精东视频| 成人涩涩网站| 2222www色视频在线观看| 成人综合色站| 亚洲成人av在线| 成人在线综合网站| 国内精品在线视频| 在线成人一区二区| 国产欧美日本一区视频| 日本电影在线观看网站| 欧美性大战久久久久| 伊人av综合网| 久久精品夜夜夜夜久久| 久久精品高清| 欧美xxxx视频| 91精品国产自产在线观看永久| 国产精品综合在线视频| 国产亚洲久久| 日韩写真在线| 美女啪啪无遮挡免费久久网站| 亚洲欧美日韩在线观看a三区| 中文在线免费二区三区| 91在线短视频| 亚洲一区二区福利| 国产精品综合| 成人日韩av| 国产精品秘入口| 欧美变态另类刺激|