国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

突破通用領域推理的瓶頸!清華NLP實驗室強化學習新研究RLPR

人工智能 新聞
清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward,RLPR)。

余天予,清華大學計算機系一年級博士生,導師為清華大學自然語言處理實驗室劉知遠副教授。研究興趣主要包括高效多模態大模型、多模態大模型對齊和強化學習,在 CVPR、AAAI等人工智能領域的著名國際會議和期刊發表多篇學術論文,谷歌學術引用1000余次。

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表現充分展現了 RLVR(Reinforcement Learning with Verifiable Reward,基于可驗證獎勵的強化學習)的巨大潛力。

然而,現有方法的應用范圍局限于數學和代碼等少數領域。面對自然語言固有的豐富多樣性,依賴規則驗證器的方法難以拓展到通用領域上。

針對這一關鍵挑戰,清華大學自然語言處理實驗室提出了一項關鍵性技術 —— 基于參考概率獎勵的強化學習(Reinforcement Learning with Reference Probability Reward,RLPR)。

圖片

  • 論文標題:RLPR: Extrapolating RLVR to General Domains without Verifiers
  • 論文地址:https://github.com/OpenBMB/RLPR/blob/main/RLPR_paper.pdf
  • GitHub 倉庫:https://github.com/OpenBMB/RLPR

這項技術通過 Prob-to-Reward 方法顯著提高了概率獎勵(Probability-based Reward, PR)的質量,相比基于似然度的基線方法取得了明顯更佳的性能優勢和訓練穩定性。

同時,RLPR 提出基于獎勵標準差的動態過濾機制,進一步提升強化學習的穩定性和性能提升。目前 RLPR 相關代碼、模型、數據、論文均已開源。

PR 為何有效?挖掘模型的內在評估

研究團隊觀察到,大語言模型(LLM)在推理過程中對于參考答案的生成概率直接反映了模型對于本次推理的質量評估。也就是說,模型的推理越正確,其生成參考答案的概率通常就越高。

在論文中,研究團隊給出了一個具體示例:當模型在輸出 o2 中錯誤地把選項 A 排在了第二位時,可以觀察到參考答案在第二個正確選項位置上的生成概率出現了顯著下降。這一現象清晰地表明,PR 能夠精準捕捉模型對于自身推理質量的判斷,并且與模型推理的正確性表現出高度相關性。

圖片

PR 示例,更深的顏色代表更大的輸出概率

RLPR 核心特點

領域無關的高效獎勵生成

現有 RLVR 方法通常需要投入大量的人力和工程資源,為每個領域編寫特定的驗證規則,相比之下,RLPR 僅需要簡單的一次前向傳播(forward pass)就可以生成獎勵分數。通過使用參考答案的生成概率均值作為獎勵。這種方法能夠有效地應對自然語言固有的復雜多樣性。

如下圖所示(右側示例),基于規則匹配的方式無法識別出 y2 和 y3 和參考答案語義等價,而 RLPR 的 PR 機制準確地給予了這兩個答案更高的分數。

圖片

RLPR 與現有 RLVR 范式的對比

獎勵糾偏和動態過濾

基礎的 PR 已經呈現出和回答質量很高的相關性,但是仍然受到問題和參考答案風格等無關因素的干擾(即存在偏差)。為此,研究團隊提出構建一個不包含思維鏈過程(z)的對照獎勵,并通過做差的方式去除無關因素對于分數的影響,實現獎勵糾偏。

圖片

圖片

傳統基于準確率(Accuracy Filtering)的樣本過濾方法難以適用于連續的 PR 值。RLPR 提出基于獎勵標準差的動態過濾機制,保留那些取得較高獎勵標準差的樣本用于訓練,有效提升了訓練的穩定性和效果。考慮到訓練過程中獎勵的標準差會持續變化,RLPR 進一步采用指數移動平均(EMA)的方式持續動態更新過濾閾值。

可靠的獎勵質量和框架魯棒性

研究團隊通過 ROC-AUC 指標定量評估了不同來源獎勵的質量。結果表明,PR 在 0.5B 規模即取得了顯著優于規則獎勵和驗證器模型獎勵的質量。同時,通用領域獎勵質量隨著模型能力的增強可以進一步提高到 0.91 水平。

圖片

PR 獎勵質量優于規則獎勵和驗證器模型獎勵

為了驗證框架的魯棒性,研究團隊使用多種不同的訓練模板結合 RLPR 訓練 Qwen2.5 3B 模型,并觀察到 RLPR 在不同訓練模板上都可以取得穩定的性能提升。

圖片

RLPR 對不同訓練模板的魯棒性

研究團隊還進一步在 Gemma、Llama 等更多系列的基座模型上進行實驗,驗證 RLPR 框架對于不同基座模型均可以穩定提升模型的推理能力,并超過了使用規則獎勵的 RLVR 基線。

圖片

RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均穩定提升推理能力

總結

RLPR 提出了創新的 Prob-to-Reward 獎勵機制,解決了現有 RLVR 范式的領域依賴問題。通過在 Gemma、Llama、Qwen 等主流模型系列上的廣泛驗證,RLPR 不僅證明了其卓越的有效性和相對于傳統規則獎勵的顯著優勢,更在推動強化學習(RL)向更大規模(scaling)發展的道路上,邁出了堅實而有力的一步。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-09 09:32:35

2025-08-21 09:10:00

2025-01-06 12:46:16

模型數據訓練

2025-08-07 09:16:41

2022-11-03 14:13:52

強化學習方法

2025-03-03 09:12:00

2024-12-27 12:00:48

2020-09-02 10:36:52

機器人人工智能系統

2022-12-01 08:00:00

2025-05-09 08:40:00

2025-10-21 09:06:00

2025-03-12 09:35:45

2025-04-25 09:12:00

2025-10-22 10:16:02

2025-10-11 04:00:00

2024-10-29 15:20:00

強化學習模型

2025-05-19 08:47:00

強化學習模型開源

2023-10-17 12:33:27

AI模型

2024-12-16 17:44:18

點贊
收藏

51CTO技術棧公眾號

亚洲成人亚洲激情| 夜夜嗨av一区二区三区中文字幕| heyzo一区| 国产亚洲午夜| 精品亚洲永久免费精品| 欧美日韩高清免费| 在线日本欧美| 日韩黄色视屏| 一区二区三区在线视频免费| 妺妺窝人体色777777| 在线视频1区2区| 9999在线精品视频| 国产欧美在线观看一区| 欧美最新另类人妖| 亚洲第一网站| 精品一区二区三区在线播放| 国产一区在线精品| 在线观看91精品国产入口| 国产91免费视频| 成人精品毛片| 亚洲视频第一页| 自拍视频在线看| jizz在线免费观看| 91在线观看一区二区| 久久久久久三级| 午夜电影网亚洲视频| 天堂v视频永久在线播放| 在线观看免费视频综合| 韩国日本一区| 2018中文字幕一区二区三区| 国产欧美日韩精品一区二区三区 | 国产一区二区中文字幕免费看| 欧美jizzhd欧美| 亚洲天堂福利av| 欧美视频小说| 女生裸体视频一区二区三区| 欧美一级精品在线| 4虎在线播放1区| 日本欧美韩国一区三区| 久久久久中文字幕| 国产美女视频一区二区三区| 欧美激情精品久久久六区热门| 成人免费在线播放视频| 91精品国产综合久久香蕉的特点| 色yeye香蕉凹凸一区二区av| 男女羞羞视频网站| 色噜噜狠狠色综合中国| 国产农村av| 岛国精品在线播放| 欧美高清视频在线播放| 九色中文视频| 四虎成人精品永久免费av九九| 亚洲成人7777| 国产精品毛片a∨一区二区三区|国| 国产原创视频在线观看| 日韩高清欧美激情| 欧美日韩在线播放一区| 三区四区在线视频| 奇米成人av国产一区二区三区| aa亚洲一区一区三区| 国产精品一区二区三区毛片淫片| 六月天综合网| 亚洲国产日韩欧美在线99| 99porn视频在线| 亚洲永久免费视频| 亚洲涩涩av| 91激情视频在线| 久久精品在线视频| 成人综合婷婷国产精品久久蜜臀| 99热99re6国产在线播放| 91免费版黄色| 色婷婷亚洲婷婷| 好看的亚洲午夜视频在线| 成人免费观看视频在线观看| 五月婷婷综合激情| 亚洲播播91| 天天好比中文综合网| gogo大胆日本视频一区| 天堂在线免费av| 亚洲白虎美女被爆操| 中文字幕日韩高清在线| 久久免费看av| 日韩欧美精品中文字幕| 国精产品一区二区三区有限公司| 有码中文亚洲精品| 国内精品视频666| 不卡视频一区二区三区| 麻豆成人综合网| aaa毛片在线观看| 亚洲电影激情视频网站| 九色porny丨入口在线| 8050国产精品久久久久久| 亚洲国产裸拍裸体视频在线观看乱了中文| 亚洲精品一品区二品区三品区| 91香蕉视频黄| 搞黄视频免费在线观看| 久久精品中文字幕免费mv| 伊人久久大香线| 男人日女人逼逼| 欧美日韩一二三区| 北条麻妃一区二区三区在线观看| 九九九九精品| 午夜视频一区| 欧美精品一区二| 国产精品亚洲d| 精品性高朝久久久久久久| 欧美色图另类| 色天天综合色天天久久| 成人三级视频在线播放| 久久综合给合久久狠狠狠97色69| 欧美日韩一区二区三区69堂| 精品国产精品自拍| 久久97久久97精品免视看秋霞| 男人艹女人在线观看| 国产精品女主播视频| 日韩av影视在线| 成人午夜视频在线观看| 污的网站在线观看| 日韩在线不卡视频| 一区二区三区欧美| 亚洲福利在线看| 国产精品久久国产精品| 欧美日韩黄色一级片| 亚洲一本大道| 国产第一页视频| 日本在线成人一区二区| 丝袜亚洲另类欧美重口| 亚洲.国产.中文慕字在线| 亚洲女厕所小便bbb| 性一交一乱一区二区洋洋av| av日韩国产| 毛片一区二区三区四区| 久久免费偷拍视频| 亚洲精品国产偷自在线观看| 久久精品色播| 日产精品久久久久久久性色| 久久在线中文字幕| 国内一区二区三区在线视频| 日产精品久久久一区二区| 国产精品久久久久av福利动漫| 农村寡妇一区二区三区| 久久精品日产第一区二区三区精品版| 国产精品18久久久久久麻辣| 亚洲免费视频网站| 欧美—级a级欧美特级ar全黄| 精品国产成人系列| 黄页视频在线91| 免费欧美在线视频| 国产suv精品一区二区三区| 国产欧美黑人| 一区二区三区在线资源| 日韩视频一二区| 四虎影视成人精品国库在线观看| 亚洲不卡在线| 国产成人手机高清在线观看网站| 黄色国产网站在线播放| 成年人在线观看| 玖玖在线免费视频| 久久综合九色综合久| 午夜在线免费视频| 蜜桃av成人| av在线三区| 99精品国产一区二区三区2021 | 欧美精品高清视频| 日韩免费一区| 欧美激情亚洲激情| 亚洲直播在线一区| 国产精品一区二区三区在线| 久久天天狠狠| 亚洲一区二区中文| 免费一区二区三区| 日本午夜激情视频| 农村寡妇一区二区三区| 97超级碰碰碰久久久| 午夜精品久久久久| 狠狠色丁香久久婷婷综合_中| 久久九九免费| 蜜桃av一区二区| 蜜臀av性久久久久蜜臀aⅴ流畅| 久久久久久**毛片大全| 欧美一区二区视频网站| 欧美激情欧美激情| av免费观看大全| 美国成人av| 日韩伦理一区二区三区| 国产精品久久久免费| 亚洲人成7777| 精品国产一区二区三区四区 | 久久综合九色综合97婷婷| 欧美在线在线| 男人免费av| 超碰97在线播放| 日韩精品视频在线播放| 久久综合色婷婷| 天天操夜夜操国产精品| 午夜av在线播放| jizz欧美激情18| 国产乱子伦精品| www.欧美三级电影.com| 午夜视频在线观看一区|