国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

港科提出新算法革新大模型推理范式:隨機策略估值竟成LLM數學推理「神操作」

人工智能 新聞
ROVER 的提出,不僅是一次技術突破,更是一次方法論的反思:在某些結構化任務中,簡化而非復雜化,才是推進性能的關鍵。「Simplicity is the ultimate sophistication.」 —— ROVER 這一基于簡單隨機策略的新方法,詮釋了達芬奇這句名言在 AI 時代的新內涵。

論文第一作者何浩然是香港科技大學博士生,研究方向包括強化學習和基礎模型等,研究目標是通過經驗和獎勵激發超級智能。共同第一作者葉語霄是香港科技大學一年級博士。通訊作者為香港科技大學電子及計算機工程系、計算機科學與工程系助理教授潘玲。

在大語言模型(LLM)的數學推理任務中,基于可驗證獎勵的強化學習(RLVR)已成為提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依賴為傳統 RL 場景設計的策略梯度更新的學習目標,本質上可以被策略迭代(policy improvement)刻畫,即包含策略評估(policy  evaluation)與策略改進(policy improvement)的不斷循環的過程。這些方法常常面臨訓練不穩定、多樣性喪失、調參復雜等問題。

那么對于 LLM 推理任務,有沒有一種更簡潔、更本質的解法?

香港科技大學聯合階躍以及快手等團隊提出了一個令人驚訝的答案:只需對一個完全隨機的策略進行價值評估,就足以找到最優推理路徑。他們由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以極簡思路顛覆傳統范式,跳過傳統強化學習推理的策略迭代(policy improvement)循環。

ROVER 不僅在多項數學推理基準上顯著超越現有方法,更以「極簡主義」實現高質量與高多樣性兼備的推理生成。

目前,論文、代碼以及模型均已開源。

  • 論文地址:https://arxiv.org/abs/2509.24981
  • 論文代碼: https://github.com/tinnerhrhe/ROVER

在 AIME24、AIME25 以及 HMMT25 等高難度任務上,ROVER 相比于傳統方法大幅提高了 pass@1(+8.2)和 pass@256(+16.8),并且在多種多樣性指標上均達到了新的高度(+17.6%)。并且 ROVER 不需要額外維護價值網絡(value network),也不需要維護基模型(reference model)計算 KL,從而更加輕量。

傳統強化學習的「痛點困局」:迭代復雜,代價高昂

在 LLM 推理優化中,主流方法(如 PPO、GRPO)可以被廣義策略迭代(Generalized Policy Iteration)刻畫 —— 反復執行「策略評估(計算當前策略價值,如估計優勢函數 advantage)」與「策略改進(更新策略 [數學公式])」。盡管這些方法能提升性能,卻存在核心痛點:

  • 訓練穩定性差:優化目標「非定常」,模型易崩潰。最近的工作通過疊加復雜技巧如 KL 正則約束、裁剪重要性采樣、熵監控等。這些「補丁」讓訓練如履薄冰,稍有不慎就會引發「熵坍塌」(策略多樣性驟降,陷入單一推理路徑)。
  • PPO 需維護獨立的價值網絡預測狀態價值,并反復執行策略迭代:GRPO 等方法也需要維護基模型(reference model)計算 KL。這種「重資產」模式,加重了 RL 優化的計算開銷。
  • 推理多樣性流失:為質量犧牲探索,pass@k 性能飽和。基于獎勵最大化的傳統強化學習方法會使模型過度追求單次推理正確率,犧牲了策略探索能力 —— 模型只會生成少數幾種推理路徑,犧牲了 pass@k(多次推理覆蓋更多可行解的能力)。

ROVER 的「極簡革命」:隨機策略的 Q 值足以指導最優決策

研究團隊首先指出,大語言模型推理任務可被建模為有限時域馬爾可夫決策過程(MDP),具備以下關鍵特性:

  • 確定性狀態轉移;
  • 樹狀結構(每個狀態有唯一父節點,不存在不相交子樹);
  • 二元稀疏獎勵(正確 / 錯誤)。

這與傳統 RL 任務(如 Atari 游戲、機器人控制)中常見的隨機性狀態轉移、循環圖結構、中間獎勵等復雜設定截然不同。

「我們是否在用過于復雜的工具,解決一個結構上更簡單的問題?」—— 這成為 ROVER 研究的出發點。

在這一簡單結構中,研究團隊證明了一個顛覆性結論:均勻隨機策略的 Q 值,直接指向最優策略。

設環境為有限時域、樹形狀態空間、二元獎勵的 MDP, 為均勻隨機策略(每個動作選擇概率為 1/|A|), 為其 Q 值。則貪心策略(如下所示)就是最優策略!

證明直觀:樹形結構中,若某動作的子樹存在正確解答,則 ;反之 。因此,貪心選擇值最大的動作,必然導向包含正確解答的路徑。

因此,策略學習過程可以簡化為下圖形式。

ROVER 算法流程:三步極簡,免去迭代

(1)Q 值估計:

ROVER 通過廣義貝爾曼方程計算均勻隨機策略下狀態 - 動作對的值,因此方程用均值算子表達:

 為獎勵,s' 為執行動作 a 后的新狀態,V 為動作空間。

(2)策略構建:

盡管貪心選擇可保證最優性,卻可能喪失多樣性。為此,ROVER 引入基于值的 softmax 采樣:

其中是溫度系數,控制探索程度。這種方式既保留了高價值路徑的優先級,又能探索多條有效推理路線,顯著提升 pass@k 表現。

(3)訓練目標:

在實際實現中,ROVER 還引入了:

  • 函數內化于 LLM 參數,無需訓練額外價值網絡:



    這種「自監督」式參數化,讓模型學習「相對改進」而非「絕對價值」,既減少計算量,又提升穩定性。
  • 組內獎勵中心化,降低方差,即 。避免高方差獎勵干擾值學習。同時,將中心化獎勵「廣播」到生成的全序列 token,實現細粒度信用分配。

ROVER 的損失函數可以表示為:

算法偽代碼如下:

實驗結果:全面領先,多樣性顯著提升

研究團隊在數學推理基準(AIME24/25、HMMT25、AMC、MATH 等)、Countdown 任務以及 O.O.D. 任務 GPQA-diamond 上驗證 ROVER,覆蓋 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型,結果堪稱「降維打擊」:

1. 數學競賽任務:pass@1 與 pass@k 雙突破

在 Qwen3-8B-Base 模型上,ROVER 的 pass@1 在 AIME24 達 30.6(比最佳基線 DAPO 高 19.1 分);在 HMMT25 任務中,pass@1 從基線最高 7.1 躍升至 14.6(提升 106%)。

更關鍵的是 pass@k 性能:傳統 RL 方法(如 GRPO)的 pass@k 隨 k 增大迅速飽和,而 ROVER 在 pass@256 上也能與基線拉開明顯差距,展現持續探索能力。

2. 策略多樣性:比基線高 17.6%,覆蓋更多解題路徑

采用 LLM-as-Judge 方法評判所有方法生成的正確答案的推理內容多樣性,ROVER 訓練的策略多樣性比基線平均提升 +17.6%,在 AIME24 上發現更多獨特解題路徑。在其他多樣性指標如余弦距離(cosine distance)與利用率(utility)等,ROVER 在不同溫度下仍表現出一致的高多樣性。

受益于多樣性的提升,ROVER 在 GPQA-diamond 等與數學無關的 O.O.D 任務上也表現最佳。

3. 案例展示:ROVER 發現全新解法

通過「策略數量」指標(同一問題生成的不同推理路徑數)評估, ROVER 在各個任務上均能發現更多的解題策略。如下圖所示,在「2x3 網格數字排列」問題中,基模型與 GRPO 均僅發現 2 種策略,而 ROVER 可以發現 4 種(包括「隔板法」「容斥原理」等不同數學工具)。

啟示與展望

ROVER 的提出,不僅是一次技術突破,更是一次方法論的反思:在某些結構化任務中,簡化而非復雜化,才是推進性能的關鍵。「Simplicity is the ultimate sophistication.」 —— ROVER 這一基于簡單隨機策略的新方法,詮釋了達芬奇這句名言在 AI 時代的新內涵。

更多方法細節與實驗分析請見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-08 08:47:00

2025-05-30 02:00:00

獎勵模型RRMAI

2023-05-30 14:17:00

模型推理

2025-05-21 13:52:39

LLM模型

2024-09-09 08:31:15

2024-10-12 10:57:39

2025-06-26 09:06:59

2025-05-27 01:27:00

LLM大模型數學推理

2024-02-01 08:34:30

大模型推理框架NVIDIA

2021-12-01 10:05:12

模型人工智能計算

2025-04-15 09:22:00

AI訓練模型

2023-10-11 12:32:53

AI模型

2025-05-28 02:40:00

AdaptThink推理模型AI

2024-08-27 09:35:47

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-09 09:32:35

2025-06-16 14:41:07

模型開源AI

2025-07-08 03:11:00

2023-01-05 09:33:37

視覺模型訓練

2025-10-08 10:44:16

點贊
收藏

51CTO技術棧公眾號

欧美日韩国产一区二区三区| 中文字幕免费不卡| 午夜天堂精品久久久久| 亚洲毛片在线观看.| 成视频在线观看免费观看| 欧美1234区| 不卡一卡二卡三乱码免费网站| 一区二区成人在线| 56国语精品自产拍在线观看| 成人性免费视频| 成人影视亚洲图片在线| 日韩欧美aaaaaa| 色资源网在线观看| 日韩主播视频在线| 一本久久精品一区二区| 91极品尤物在线播放国产| 国产精品尤物| 日韩精品一区二区三区四区| 手机av免费在线| 国产激情偷乱视频一区二区三区| 亚洲一区二区在线看| 韩国成人福利片在线播放| 日韩一区二区三区资源| 天堂社区日本电影超碰| 韩国久久久久| 91传媒免费视频| 亚洲精品免费在线| 国产福利小视频在线观看| 久久久999| 69**夜色精品国产69乱| 国产精品sm| 韩国日本在线视频| 五月婷婷激情综合网| 在线成人性视频| 色鬼7777久久| 欧美无乱码久久久免费午夜一区| mm131午夜| 久久久久久久久久久9不雅视频| 亚洲欧美一区二区三区情侣bbw| 中文字幕欧美人与畜| 丝袜美腿高跟呻吟高潮一区| 影音先锋成人资源网站| 久久色.com| 黄色片久久久久| 成人福利视频网站| 99蜜桃臀久久久欧美精品网站| 欧美日韩1区| 色一情一乱一伦一区二区三欧美| 蜜桃久久久久久久| 内射国产内射夫妻免费频道| 中文字幕精品一区二区精品绿巨人 | 国产精品99久久久久久久vr| 亚洲一区在线免费| 狠狠网亚洲精品| 欧美黄网站在线观看| 欧美日韩国产综合新一区 | 免费av片风间由美在线| 狠狠爱在线视频一区| 国产激情在线观看| 九九九久久久久久| 99精品国产一区二区青青牛奶 | 丁香花在线高清完整版视频| 久久久国产91| 综合在线视频| 日本aa在线观看| 波多野结衣一区| 视频一区二区三| 亚洲精品成人精品456| 中文字幕免费高清电视剧网站在线观看| 一区二区三区国产在线观看| 日韩在线观看电影完整版高清免费悬疑悬疑 | 99在线热播| 中文字幕五月欧美| 另类图片综合电影| 五月天一区二区三区| 都市激情亚洲综合| 黄色99视频| 五月天婷婷综合| av免费在线视| 亚洲一区二区精品在线观看| 精品免费在线| 亚洲第一av在线| 免费av在线电影| 香蕉521av成人网| 在线观看日韩av电影| 色综合久久久888| 大色综合视频网站在线播放| 亚洲一区二区三区久久| 国产精品极品在线| 91精品国产自产在线观看永久∴| 成人午夜电影在线播放| 国产精品一区二区久久不卡 | 久久美女福利视频| 中文字幕日韩欧美一区二区三区| 午夜久久中文| а√天堂8资源在线官网| 91美女在线| 国产女呦网站| 亚洲精品videossex少妇| 日韩电影在线观看一区| 亚洲一区二区三区免费观看| 免费高清视频精品| 男人的天堂日韩| 69久久夜色精品国产69蝌蚪网| 欧美一级做一级爱a做片性| 久久久之久亚州精品露出| 国产在线一区不卡| 国产精品91xxx| jizz18女人| 欧美性videos高清精品| 久久免费成人精品视频| 亚洲麻豆一区| 九色网友自拍视频手机在线| 国产麻豆精品视频| 日本美女爱爱视频| 久久精品66| 手机成人av在线| 韩曰欧美视频免费观看| 国内av一区二区三区| 欧美日韩国产不卡在线看| 亚洲欧美日韩国产成人精品影院| 一区二区三区四区五区在线| 国产欧美自拍一区| 欧美性受ⅹ╳╳╳黑人a性爽| 欧美日韩高清在线一区| 最近2019好看的中文字幕免费| 最新在线观看av| 中文字幕精品网| 五月婷婷另类国产| 日本vs亚洲vs韩国一区三区| 久久午夜剧场| 中文字幕色一区二区| 热久久这里只有精品| 青青草视频一区| 免费看成人哺乳视频网站| 四虎影视成人| 亚洲嫩模一区| 2019国产精品自在线拍国产不卡| 精品一区二区免费| 亚洲瘦老头同性70tv| 91九色国产在线播放| 色影视在线视频资源站| 欧美亚洲日本一区二区三区 | 激情伦成人综合小说| 国产精品久久视频| 久久69精品久久久久久久电影好 | 男男互摸gay网站| 精品国产污网站| 伊人久久大香线蕉综合四虎小说| а√天堂资源国产精品| 欧美日韩国产三区| 成人亚洲综合色就1024| 亚洲最大成人网4388xx| 久久久午夜精品理论片中文字幕| 激情综合色丁香一区二区| 亚洲乱码久久| 亚洲一区二区日韩| 亚洲成人精选| 欧美视频不卡| 亚洲一区二区三区高清| 5566av亚洲| 欧美视频中文字幕在线| 疯狂做受xxxx高潮欧美日本| 亚洲国产婷婷综合在线精品| 亚洲国产cao| 欧美精品亚洲一区二区在线播放| 日韩成人一级大片| 亚洲一区二区毛片| 日本不卡视频一二三区| 久久国产精品99精品国产 | 在线观看国产精品入口| 婷婷综合五月| 最新亚洲人成网站在线观看| 国产美女在线播放| 麻豆视频在线观看免费| 日韩国产一级片| 亚洲国产成人va在线观看麻豆| 中文在线观看视频| 欧美xxxx性xxxxx高清| 看亚洲a级一级毛片| 国产不卡一区| 亚洲成a人v欧美综合天堂麻豆| 一二三四视频在线中文| 欧美日韩大片| a毛片在线播放| 国产精品毛片aⅴ一区二区三区| 欧美大胆性生话| 宅男网站在线免费观看| 91成人抖音| 色琪琪免费视频网站| 成人自拍网站| 中文字幕在线日韩| 日韩av大片免费看| 精品久久免费观看| 伊人久久青青草| 一区二区在线免费播放| 六月丁香综合| 综合久久久久久| 中文字幕日韩精品在线观看| 久久99精品久久久久久水蜜桃|