国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

快手Klear團隊提出CE-GPPO:通過梯度保留協調熵,解決強化學習中的熵不穩定問題

人工智能 新聞
快手 Klear 團隊提出了一種新的強化學習算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機制的本質影響,并對應地提出了梯度保留策略,在保證訓練穩定的前提下,納入裁剪區間外的梯度使模型能夠在訓練過程中達到探索與收斂的平衡。

本研究由快手科技 Klear 語言大模型團隊完成,核心作者蘇振鵬,潘雷宇,呂民軒,胡文憑,張富崢,周國睿等。快手 Klear 語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向,積累務實的探索 AGI 的能力邊界,并不斷推進 AI 領域新技術和新產品的發展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。

近年來,隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復雜推理與思維鏈能力,強化學習已成為推動語言模型智能躍升的關鍵技術環節。相比傳統的監督微調,RL 通過獎勵信號直接優化模型行為,使模型能夠在訓練中自我探索、自我修正。

然而,這一階段的訓練并非穩態過程。業界在大規模 RLVR 實踐中普遍發現,模型熵的失衡,即探索與利用的不協調,是導致模型訓練不穩定、性能難以提升的核心原因。針對這一長期瓶頸,快手 Klear 團隊提出了一種新的強化學習算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機制的本質影響,并對應地提出了梯度保留策略,在保證訓練穩定的前提下,納入裁剪區間外的梯度使模型能夠在訓練過程中達到探索與收斂的平衡。

  • 論文標題:CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
  • 論文地址:https://www.arxiv.org/pdf/2509.20712
  • 項目地址:https://github.com/Kwai-Klear/CE-GPPO

研究動機

在使用強化學習方法優化大模型以處理復雜推理任務的過程中,策略熵的平衡是核心挑戰,原因在于它衡量了動作選擇的不確定性,能夠代表模型探索與利用的權衡。然而,現有的方法通常面臨熵不穩定的問題,具體來說包含兩方面,一方面是熵坍縮,這會造成模型的輸出趨于單一,喪失探索能力,另一方面是熵爆炸,這會造成模型過度探索,進而導致訓練不穩定、難以收斂。

CE-GPPO 通過研究將所有 token 分為四類,分別對熵有不同的作用:

  • 導致熵坍縮的 token 類型:正優勢高概率 token(PA&HP)、負優勢低概率 token(NA&LP),優化這部分 token 會強化高概率選擇或弱化低概率選擇,加速策略的收斂。
  • 導致熵爆炸的 token 類型:正優勢低概率 token(PA&LP)、負優勢高概率 token(NA&HP),優化這部分 token 會強化低概率選擇或弱化高概率選擇,維持輸出多樣性。

然而,由于 PPO 等方法廣泛采用的 clip 機制,有些低概率的 token(包括 PA&LP token 和 NA&LP token)的梯度被直接截斷,這意味著,PPO 在保證穩定性的同時,失去了平衡探索與利用的「安全閥」,從而導致了熵的不穩定變化,具體來說又分為以下兩種情況:

  • PA&LP token 被裁剪,導致模型無法有效探索,進而造成熵坍塌的現象。
  • NA&LP token 被裁剪,導致模型過度探索,進而造成收斂延遲的現象。

現有的一些方法,比如 DAPO 中的 clip higher 方法拓展了裁剪的上界,僅僅納入了一部分原本被裁剪的 PA&LP token,并沒有解決過度探索的問題。因此,CE-GPPO 的核心目標是:在保證訓練穩定的前提下,重新利用裁剪外區間低概率 token 的梯度,實現策略熵的精細調控,平衡模型訓練過程中的探索與利用。

算法設計

基于上述洞察,快手 Klear 團隊提出了全新的 CE-GPPO 算法,其核心思想是:不再丟棄被裁剪 token 的梯度,而是有控制地保留和縮放它們,讓它們作為平衡熵變化,平衡探索與利用的 “閥門”。

核心機制

上式是 CE-GPPO 的目標函數,其在原 PPO 框架上引入了兩項關鍵改進:

  • stop gradient 解耦機制:對超出 clip 區間的 token 應用 stop gradient 操作,在前向傳播保持不變的同時在反向傳播時恢復其梯度傳導。
  • 雙系數控制 β? 和 β? :通過兩個可調整的超參數對梯度進行縮放,其中 β? 控制原本被截斷的 NA&LP token 的梯度,促進收斂;β? 控制原本被截斷的 PA&LP token 的梯度,鼓勵探索。這使得訓練可以在探索與利用之間靈活調節。

梯度穩定性證明

上式是 CE-GPPO 的梯度表達式,可以觀察到,雖然 CE-GPPO 引入了 clip 區間外的梯度,其仍然能夠維持訓練穩定,一個核心的原因是梯度幅度是可控的:裁剪區間外的梯度被限制在 β?(1-?) 或 β?(1+?) ,其中 β? 和 β? 通常接近于 1,避免梯度爆炸。公式的其他項與 PPO 的梯度表達式一致,繼承了 PPO 的「保守更新」的特性。

實驗結果

為驗證 CE-GPPO 在穩定性與性能上的有效性,研究團隊在多個數學推理基準上進行了系統實驗,包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓練。

主要觀察:

  • CE-GPPO 在所有 benchmark 上均超越強基線方法。
  • 提升最顯著的任務為 AIME25 與 HMMT25,這類高難度推理任務對熵穩定性與探索能力最敏感,驗證了 CE-GPPO 在保持探索性的同時確保收斂的效果。
  • 模型規模越大,CE-GPPO 帶來的收益越明顯,說明方法擁有能夠 scale 到更大規模模型的潛力。

此外,訓練過程中對比了各方法的熵動態曲線與驗證集準確率變化:

  • GRPO 出現顯著的熵塌縮,訓練后期輸出趨同;
  • DAPO 通過 clip-higher 緩解了塌縮,但存在 “熵反彈”,后期出現過度探索;
  • CE-GPPO 保持穩定且中等偏高的熵水平,全程無震蕩,最終收斂性能更高。

實驗分析

超參數對熵變化的影響

CE-GPPO 的兩個核心超參數 β? 和 β? 控制了裁剪區間外梯度的權重,在 1.5B 與 7B 模型上進行了系統超參數實驗,結果如圖所示:

  • 當 β? 較大(例如 β?=1, β?=0.5)時,模型更偏向利用,熵下降更快。
  • 當 β? 較大(例如 β?=0.5, β?=1)時,模型傾向于探索,熵下降變緩且保持在較高水平,甚至也有可能出現熵上升的趨勢。

這一現象驗證了 CE-GPPO 的 “可控熵調節” 機制:通過調整兩個系數,訓練可以在「快速收斂」與「持續探索」之間取得理想平衡。

熵變化與性能的關系

進一步的,研究還分析了熵變化與性能之間的關系,并得出了以下結論:

  • 維持相對高且穩定的熵通常有利于訓練過程中的持續性能提升,熵的過快下降和上升都不利于模型性能的穩定提升。
  • 給予 PA&LP tokens 更大的梯度權重 β? ,同時給予 NA&LP tokens 更小的權重 β? ,有助于維持模型的探索能力,更有利于性能提升。
  • CE-GPPO 對超參數具有魯棒性,在不同規模模型上,β?=0.5/0.75 和 β?=1 的設置都能帶來顯著的性能提升。

訓練穩定性實證性驗證

為了驗證 CE-GPPO 的訓練穩定性,研究可視化分析了訓練過程中 KL 散度和 gradient norm,并與 GRPO 的訓練動態進行對比,結果表明,CE-GPPO 雖然納入了 clip 區間外 token 的梯度,但由于梯度限制在固定區域,所以其整體訓練過程是平穩的。

與其他 RL 算法比較

研究還對比了 CE-GPPO 與其他近期提出的強化學習算法的性能,比如 CISPO 和 GSPO 算法,CE-GPPO 在不同基準上取得了最好的結果,進一步的,可以分析出如下結論:

  • CISPO 雖然采用了類似的通過 stop gradient 的方法保留梯度,但在訓練后期仍出現熵急劇下降和性能崩潰的現象,它與 CE-GPPO 的區別主要在于 CE-GPPO 繼承了 PPO 的悲觀更新的特性,并且 CE-GPPO 對于 clip 區間外梯度的管理更加細粒度,這些原因導致 CE-GPPO 的性能超過 CISPO 算法。
  • GSPO 使用序列級別的重要性采樣,這導致了大約 15% 的 token 被裁剪,而 CE-GPPO 方法納入了 clip 區間外 token 的梯度,其對于采樣樣本的利用率更高,所以性能更好。

與其他熵調節方法的比較

最后,研究還比較了 CE-GPPO 和其他熵調節的算法,比如傳統的熵正則化以及 DAPO 的 clip-higher 策略,結果表明:

  • 直接加入熵正則項雖然能延緩熵坍縮,但其對超參數稀疏很敏感,并且性能均較差。
  • DAPO 的 clip higher 策略雖然能納入部分高熵 token 的梯度,但在訓練后期出現熵反彈和過度探索的現象,這限制了模型的收斂。
  • CE-GPPO 全程保持了較為平穩的熵曲線,并且性能隨訓練不斷提升,達到了最優性能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-11-03 08:41:00

AI模型推理

2025-12-08 09:00:00

LLM強化學習模型

2021-04-19 11:12:46

區塊鏈貨幣加密貨幣

2023-04-23 10:12:14

算法強化學習

2009-12-25 09:39:08

ADSL MODEM

2010-09-14 13:17:11

無線網絡不穩定

2025-10-16 08:55:00

2024-04-03 07:56:50

推薦系統多任務推薦

2010-04-09 14:40:44

2025-07-03 08:33:00

2025-08-07 09:16:41

2011-06-29 14:39:29

網站排名

2010-09-15 13:27:33

無線信號不穩定

2024-11-29 16:33:24

2018-07-17 09:09:44

AE項目

2025-01-17 13:41:24

2023-06-25 11:30:47

可視化

2011-04-01 15:02:43

路由器鏈路

2022-11-02 14:02:02

強化學習訓練
點贊
收藏

51CTO技術棧公眾號

日本一区二区在线看| 国产日本精品| 一本色道久久综合狠狠躁的推荐| 亚洲 欧洲 日韩| 国产福利资源一区| 色婷婷久久一区二区三区麻豆| 久草热视频在线观看| 亚洲精品欧洲| 国产91久久婷婷一区二区| 久久影院午夜精品| 色婷婷精品大在线视频| 国产三级三级看三级| 精品亚洲欧美一区| 国产精品免费观看高清| 欧美国产不卡| 综合网日日天干夜夜久久| 日本视频在线观看| 亚洲五码中文字幕| 中文字幕永久视频| 国产很黄免费观看久久| 精品国产福利| 成人同人动漫免费观看| 久久久国产成人精品| ririsao久久精品一区| 色综合久久88色综合天天6| 在线观看亚洲色图| 成人av在线观| 成年人免费观看的视频| 在线日韩av| 亚洲最大激情中文字幕| 精品午夜久久| 国产精品av电影| 国产区精品视频在线观看豆花| 亚洲日本中文字幕免费在线不卡| 成人日韩欧美| 欧美日韩国产系列| 精华区一区二区三区| 欧美日韩国产精品一区| 欧美黑人巨大| 欧美日韩国产综合视频在线观看中文| 国产色视频网站| 久久九九影视网| 国产成人综合一区| 久久精品欧美一区二区三区麻豆| 日韩五码在线观看| 26uuu精品一区二区三区四区在线| 国产精品av免费观看| 国产一区二区91| 成人小视频在线观看免费| 国产成人综合网| 亚洲 自拍 另类小说综合图区| 国产高清在线观看免费不卡| 免费成人深夜夜行网站视频| 国产福利一区二区三区视频 | 日韩久久一级片| 成人精品视频一区二区三区| 国产精品12p| 成人手机电影网| 青青在线视频观看| 亚洲免费在线电影| 青春有你2免费观看完整版在线播放高清 | 黄色网在线免费看| 欧美变态tickle挠乳网站| 国产精品—色呦呦| 在线免费看av不卡| 猫咪成人在线观看| 亚洲自拍中文字幕| 亚洲一区二区免费看| 波多野结衣激情| 久久午夜老司机| 欧美著名女优| 欧美一区二区高清| 国产精品伦一区二区| 97久久精品人人澡人人爽缅北| 93在线视频精品免费观看| 欧美精彩一区二区三区| 成人性生交大片免费看视频在线| 欧美午夜aaaaaa免费视频| 激情懂色av一区av二区av| av大全在线免费看| 亚洲香蕉在线观看| 欧美wwwwww| 99久久国产免费免费| 狠狠v欧美v日韩v亚洲ⅴ| 久久久久久久久久久久久国产精品| 伊人开心综合网| 女子免费在线观看视频www| 草民午夜欧美限制a级福利片| 国产伦精品一区二区三区视频| 国内精品国语自产拍在线观看| 粉嫩一区二区三区在线看| 一级一片免费视频| 日韩精品免费在线视频观看| 欧美国产中文高清| 国产一区二区三区四区hd| 成人动漫一区二区三区| 亚洲字幕成人中文在线观看| 日韩av最新在线| 亚洲精品动态| 椎名由奈jux491在线播放| 一区二区三区成人| zzzwww在线看片免费| 国产精品v片在线观看不卡| 水蜜桃久久夜色精品一区的特点 | 99视频精品| 成人性生生活性生交12| 在线亚洲免费视频| 伊人亚洲精品| 欧美精品中文字幕一区二区| 国产欧美久久久精品影院| 欧美jizzhd69巨大| 97在线观看免费| 精品一区二区三区在线播放| 中文字幕高清在线观看| 最近2019年好看中文字幕视频| 国产精品a久久久久| 欧美日韩激情视频在线观看 | 亚洲理论电影在线观看| 第一福利永久视频精品| 久久免费影院| 日韩免费电影一区二区| 亚洲一区二区三区视频在线| 日韩三级影视| 免费看成人午夜电影| 亚洲免费av高清| 国产电影一区| 亚洲人成网站在线播放2019| 欧美性猛交xxxxx免费看| av成人资源| 97在线国产视频| 精品粉嫩aⅴ一区二区三区四区| 欧美在线91| 婷婷丁香六月天| 午夜精品久久久久久久99热浪潮 | 久久综合九色综合久| 欧美精品在线看| 麻豆成人av在线| 黄网站视频在线观看| 成人妇女淫片aaaa视频| 国产精品美女久久久久久久久久久 | 四虎最新地址发布| 久久久av一区| 国产精品一区二区三区网站| 欧美激情免费| 91丨九色丨国产| 天天综合日日夜夜精品| 精品国产一区二区三区香蕉沈先生| 国产一线二线三线在线观看| 日韩在线视频线视频免费网站| 极品销魂美女一区二区三区| 国产丝袜在线| 欧美日韩免费观看一区| 欧美日韩视频第一区| 一区二区三区四区在线观看国产日韩| 制服黑丝国产在线| 国产ts人妖一区二区三区| 国产精品国产三级国产a| 欧美jizz19性欧美| 全部孕妇毛片丰满孕妇孕| 国产精品99一区| 欧美性xxxx极品hd欧美风情| 久久精品免费一区二区三区| 能在线看的av| 国产九区一区在线| 日韩一区二区三区在线观看| 国产视频一区在线观看一区免费| 欧美三级理伦电影| 亚洲v国产v在线观看| 日韩电影中文字幕在线观看| 国产精品亚洲第一| 国产精品99久久免费| 中文字幕欧美人妻精品一区| 午夜精品一区二区三区av| 悠悠色在线精品| 亚洲欧美一级二级三级| 哥也色在线视频| 喜爱夜蒲2在线| 久久久久久久久久久久av| 亚洲精选在线视频| 婷婷综合久久| 青草av在线| 鲁一鲁一鲁一鲁一色| 97色伦亚洲国产| 精品久久久久久久久久久| 黑丝一区二区三区| 免费看男女www网站入口在线| 日韩精品一区二区免费| 欧美黄色片免费观看| 亚洲国产精品久久久久秋霞影院 | 美女被啪啪一区二区| 亚洲国产小视频在线观看| 成人免费高清在线观看| 成人爽a毛片免费啪啪红桃视频| 国产三级av在线| 欧美大香线蕉线伊人久久| 国产一区二区三区直播精品电影| 国产欧美综合在线| 激情久久久久| 国产精品一区二区精品视频观看| 一区二区三区高清在线视频 |