国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

僅需一萬塊錢!清華團隊靠強化學習讓7B模型數學打敗GPT-4o

人工智能 新聞
近日,清華大學NLP實驗室、上海AI Lab、清華大學電子系、OpenBMB社區等團隊提出一種新的結合過程獎勵的強化學習方法——PRIME(Process Reinforcement through IMplicit REwards)。

OpenAI o1和o3模型的發布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的Scaling Law逐漸受到質疑的今天,基于探索的強化學習有望帶來新的Scaling Law。

近日,清華大學NLP實驗室、上海AI Lab、清華大學電子系、OpenBMB社區等團隊提出一種新的結合過程獎勵的強化學習方法——PRIME(Process Reinforcement through IMplicit REwards)

圖片

采用PRIME方法,研究人員不依賴任何蒸餾數據和模仿學習,僅用8張A100,花費一萬塊錢左右,不到10天時間,就能高效訓練出一個數學能力超過 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

具體而言,研究人員利用Qwen2.5-Math-7B-Base作為基座模型,訓練出了新模型Eurus-2-7B-PRIME,并在美國IMO選拔考試AIME 2024上的準確率達到26.7%,大幅超越GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數據的 1/10。其中,強化學習方法PRIME為模型帶來了16.7%的絕對提升,遠超已知的任何開源方案。

圖片
圖片

該項目一經開源就在海外AI社區爆火,短短幾天Github取得近300star。

未來,基于PRIME方法和更強的基座模型有潛力訓練出接近OpenAI o1的模型。

PRIME方法介紹

長久以來,開源社區嚴重依賴數據驅動的模仿學習來增強模型推理能力,但這種方法的局限也顯而易見——更強的推理能力需要更高質量的數據,但高質量數據總是稀缺,使得模仿和蒸餾難以持續。

雖然OpenAI o1和o3的成功證明了強化學習有著更高的上限,但強化學習有著兩個關鍵挑戰:(1)如何獲得精準且可擴展的密集獎勵;(2)如何設計可以充分利用這些獎勵的強化學習算法。

PRIME算法從隱式過程獎勵(implicit process reward)的思想出發解決這兩個問題。隱式過程獎勵模型可以僅在輸出獎勵模型(outcome reward model, ORM)的數據,即答案的最終對錯上進行訓練,而隱式地建模過程獎勵,最終自動訓練出一個過程獎勵模型,這整個過程都有嚴格的理論保證。

詳細推導見:https://huggingface.co/papers/2412.01981

圖片

基于隱式過程獎勵模型的這種性質,研究人員指出將其應用于強化學習有三大優勢:

  • 過程獎勵:隱式過程獎勵模型能夠為每個 token 提供價值估計,在提供過程獎勵的同時無需訓練額外的價值模型(value model)
  • 可擴展性:隱式過程獎勵模型只需結果標簽即可在線更新。所以,我們可以結合策略模型采樣與結果驗證器來直接更新PRM,有效緩解分布偏移與可擴展性問題。
  • 簡潔性:隱式過程獎勵模型本質上就是一種語言模型。在實踐中,研究人員發現可以直接用初始的策略模型初始化PRM。

隱式過程獎勵解決了PRM在大模型強化學習中怎么用,怎么訓,怎么擴展的三大問題,甚至不需要訓練額外的獎勵模型就可以開始強化學習,易用性和可擴展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強化學習算法,能夠將每個token的過程獎勵無縫應用于強化學習流程中。

圖片

實驗結果

研究人員詳細比較了PRIME算法和基線方法。

相比于僅用結果監督,PRIME有著2.5倍的采樣效率提升,在下游任務上也有著顯著提升。

圖片
圖片

研究人員還驗證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優于固定不更新的PRM,這也證明了PRIME算法設計和合理性。

圖片

此外,研究人員還額外收集數據,基于Qwen2.5-Math-Instruct訓練了SOTA水平的EurusPRM,能夠在Best-of-N采樣中達到開源領先水平。

圖片

Showcase演示

Question (AIME 2024試題,Claude-3.5-Sonnet做錯)

圖片

Answer

圖片

Question

Which number is larger? 9.11 or 9.9?

Answer

圖片

強化學習是連接已有智能體(大模型)和現實世界(世界模型,具身智能)的橋梁,以及將世界反饋內化為模型智能的路徑,將在下一代人工智能的發展中起到重要作用。PRIME 算法創新性地將隱式過程獎勵與強化學習結合,解決了大模型強化學習的獎勵稀疏問題,有望推動大模型復雜推理能力的進一步提升。

blog鏈接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fGitHub鏈接:https://github.com/PRIME-RL/PRIME

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-24 08:53:10

2025-10-24 12:07:12

2024-02-07 12:39:00

AI數據

2025-08-14 10:25:11

2025-07-14 09:00:00

2025-02-25 12:30:00

2025-11-04 08:42:27

2025-09-28 15:35:32

AI模型強化學習

2025-06-10 09:07:00

2025-04-16 15:28:31

模型AI數據

2024-09-23 15:04:16

2025-03-11 13:07:58

2025-12-03 17:17:29

AI圖像生成模型

2025-10-10 01:00:00

8B模型GPT-4oAgent

2025-03-10 01:00:00

2024-05-09 08:33:33

2025-04-11 09:10:00

模型開源AI

2025-01-02 13:00:00

2024-06-11 14:30:18

2025-04-15 09:19:00

模型AI數據
點贊
收藏

51CTO技術棧公眾號

美女爽到呻吟久久久久| 一区二区三区在线免费| 久久青草国产手机看片福利盒子| 色欧美日韩亚洲| 欧美综合一区第一页| 欧美视频一区在线| 欧美自拍视频在线观看| 成人影院在线观看| 黄页网站在线播放| 日韩精品一区二区三区中文 | 在线视频资源站| 日本韩国欧美超级黄在线观看| 国产成人免费视频网站| 精品视频久久久久久久| 亚洲成人一区二区三区| 国产成人l区| 亚洲日本在线a| 久久久久久国产三级电影| 青青草原av在线播放| 韩国精品视频在线观看 | 亚洲一级片在线看| 国产成人三级视频| 午夜伦理福利在线| 国产精品一区二区久激情瑜伽| 亚洲成人精品久久久| 免费看成人av| 狂野欧美性猛交xxxxx视频| 日韩电影免费在线看| 欧美v国产在线一区二区三区| 免费国产一区二区| 先锋资源久久| 欧美日韩精品专区| 五月天亚洲综合| 女人高潮被爽到呻吟在线观看| 国产一二三精品| 国产一区二区三区视频免费| 麻豆视频在线免费观看| 国产一区二区在线观看视频| 97人人干人人| 密臀av在线| 欧美色偷偷大香| 五码日韩精品一区二区三区视频| 亚洲一区二区三区| 欧美一级二级三级乱码| 中文字幕精品—区二区日日骚| 午夜精品成人av| 99视频一区二区| 久久久久久久久久久免费| 欧美精品日日操| 国产午夜精品理论片a级探花| 日本欧美电影在线观看| 国产成人日日夜夜| 国产又粗又爽又黄的视频| 美女视频第一区二区三区免费观看网站| 午夜久久福利影院| 麻豆传媒一区二区| 9色精品在线| 久久精品小视频| 中文字幕av网| 蜜桃av噜噜一区| 亚洲一区二区三区精品动漫| 中文字幕av一区二区三区四区| 一本一道波多野结衣一区二区| 在线观看视频黄色| 免费观看久久av| 亚洲精品久久久久中文字幕二区 | 九九热r在线视频精品| 男男电影完整版在线观看| 久久国产精品区| 国产成人精品国内自产拍免费看| 国产一二三在线观看| 亚洲裸体俱乐部裸体舞表演av| 中文综合在线观看| 在线观看黄色片| 处破女av一区二区| 亚洲一区国产精品| 日韩中文字幕在线不卡| 中文在线www| 欧美刺激午夜性久久久久久久| 日韩中文字幕av| 91传媒免费视频| 成人av中文字幕| 日本在线播放不卡| 日本精品久久| 欧美理论片在线观看| 久久69国产一区二区蜜臀| 欧美男男激情freegay| 国产精品美乳一区二区免费| 精品国产第一国产综合精品| 日韩一级在线观看| 牛夜精品久久久久久久99黑人| 欧美成人黑人xx视频免费观看| 高清av一区| 亚洲片av在线| 宅男在线观看免费高清网站| 尤物在线观看一区| 欧美绝顶高潮抽搐喷水合集| 韩国日本在线视频| 国产欧美日韩亚洲精品| 99精品国产一区二区青青牛奶 | 日韩在线观看视频免费| 粉嫩一区二区| 国模私拍视频一区| 久久久久久久久国产一区| 黄视频在线播放| 图片区小说区区亚洲五月| 亚洲福利在线视频| 久久av一区| 91桃色在线| 在线一区二区三区| 午夜伦理福利在线| 宅男噜噜噜66国产免费观看| 欧美日韩人人澡狠狠躁视频| 在线黄色.com| 国内精品在线一区| 伊人成综合网yiren22| 成人淫片在线看| 国产精品毛片久久| 亚洲一区二区三区xxx视频| 亚洲第一男人天堂| 成人三级伦理片| 首页综合国产亚洲丝袜| 激情小视频在线| 97视频免费| 亚洲欧美综合v| 日韩一区和二区| 精品成人av一区| 国产中文字幕一区二区三区| 亚洲综合第一| 久久国产精品久久久久久| 在线看国产一区二区| 26uuu亚洲综合色| 看女生喷水的网站在线观看| 九色综合日本| 精品福利av导航| 99久久久免费精品国产一区二区| 成人污视频在线观看| 国产欧美一区二区精品久导航| 久久理论电影| 亚洲二区av| 成人免费av| 日韩av超清在线观看| 国产原创中文在线观看| 国产91色在线免费| 欧美日本一道本| 欧美一区午夜精品| 久久久www成人免费无遮挡大片| 老牛精品亚洲成av人片| av在线下载| 中文字幕一区久| xxx欧美xxx| 91麻豆免费在线视频| 成年女人在线看片| 欧美成人免费高清视频| 欧美精品精品精品精品免费| 中文字幕日韩有码| 国产欧美精品久久久| 日韩精品电影网| 国产成人精品久久| 在线看无码的免费网站| 成人黄18免费网站| 久久久久久久久四区三区| 黄色一级视频片| 亚洲综合日韩在线| 国产夫妻自拍一区| 日韩一中文字幕| 国产精品日韩欧美| 欧美午夜aaaaaa免费视频| 成人综合视频在线| 日本在线xxx| 在线最新版中文在线| 好吊视频一区二区三区四区| 激情综合视频| 噜噜爱69成人精品| 一本色道久久综合狠狠躁的推荐| 国产精品久久久久久久久久久新郎| 日日碰狠狠躁久久躁婷婷| sm久久捆绑调教精品一区| 欧美成人直播| 欧美午夜女人视频在线| 亚洲成人综合视频| 欧美日韩一本到| 欧美亚洲免费在线| 日本一区二区三区视频在线观看| 国产在线观看a视频| 欧美91大片| 日韩一区二区三区视频在线观看| 国产精品wwww| 欧美成人精品影院| 欧洲成人免费aa| 一插菊花综合| 2023欧美最顶级a∨艳星| 国内精品视频| 99久久.com| 成人免费视频视频在线观看免费| 日本韩国一区二区三区视频| 日本中文字幕成人| 涩涩漫画在线观看| 中文字幕久久精品一区二区| 成+人+亚洲+综合天堂|