快手Klear團隊提出CE-GPPO:通過梯度保留協調熵,解決強化學習中的熵不穩定問題
本研究由快手科技 Klear 語言大模型團隊完成,核心作者蘇振鵬,潘雷宇,呂民軒,胡文憑,張富崢,周國睿等。快手 Klear 語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向,積累務實的探索 AGI 的能力邊界,并不斷推進 AI 領域新技術和新產品的發展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。
近年來,隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復雜推理與思維鏈能力,強化學習已成為推動語言模型智能躍升的關鍵技術環節。相比傳統的監督微調,RL 通過獎勵信號直接優化模型行為,使模型能夠在訓練中自我探索、自我修正。
然而,這一階段的訓練并非穩態過程。業界在大規模 RLVR 實踐中普遍發現,模型熵的失衡,即探索與利用的不協調,是導致模型訓練不穩定、性能難以提升的核心原因。針對這一長期瓶頸,快手 Klear 團隊提出了一種新的強化學習算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機制的本質影響,并對應地提出了梯度保留策略,在保證訓練穩定的前提下,納入裁剪區間外的梯度使模型能夠在訓練過程中達到探索與收斂的平衡。

- 論文標題:CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
- 論文地址:https://www.arxiv.org/pdf/2509.20712
- 項目地址:https://github.com/Kwai-Klear/CE-GPPO
研究動機
在使用強化學習方法優化大模型以處理復雜推理任務的過程中,策略熵的平衡是核心挑戰,原因在于它衡量了動作選擇的不確定性,能夠代表模型探索與利用的權衡。然而,現有的方法通常面臨熵不穩定的問題,具體來說包含兩方面,一方面是熵坍縮,這會造成模型的輸出趨于單一,喪失探索能力,另一方面是熵爆炸,這會造成模型過度探索,進而導致訓練不穩定、難以收斂。

CE-GPPO 通過研究將所有 token 分為四類,分別對熵有不同的作用:
- 導致熵坍縮的 token 類型:正優勢高概率 token(PA&HP)、負優勢低概率 token(NA&LP),優化這部分 token 會強化高概率選擇或弱化低概率選擇,加速策略的收斂。
- 導致熵爆炸的 token 類型:正優勢低概率 token(PA&LP)、負優勢高概率 token(NA&HP),優化這部分 token 會強化低概率選擇或弱化高概率選擇,維持輸出多樣性。
然而,由于 PPO 等方法廣泛采用的 clip 機制,有些低概率的 token(包括 PA&LP token 和 NA&LP token)的梯度被直接截斷,這意味著,PPO 在保證穩定性的同時,失去了平衡探索與利用的「安全閥」,從而導致了熵的不穩定變化,具體來說又分為以下兩種情況:
- PA&LP token 被裁剪,導致模型無法有效探索,進而造成熵坍塌的現象。
- NA&LP token 被裁剪,導致模型過度探索,進而造成收斂延遲的現象。
現有的一些方法,比如 DAPO 中的 clip higher 方法拓展了裁剪的上界,僅僅納入了一部分原本被裁剪的 PA&LP token,并沒有解決過度探索的問題。因此,CE-GPPO 的核心目標是:在保證訓練穩定的前提下,重新利用裁剪外區間低概率 token 的梯度,實現策略熵的精細調控,平衡模型訓練過程中的探索與利用。
算法設計
基于上述洞察,快手 Klear 團隊提出了全新的 CE-GPPO 算法,其核心思想是:不再丟棄被裁剪 token 的梯度,而是有控制地保留和縮放它們,讓它們作為平衡熵變化,平衡探索與利用的 “閥門”。
核心機制

上式是 CE-GPPO 的目標函數,其在原 PPO 框架上引入了兩項關鍵改進:
- stop gradient 解耦機制:對超出 clip 區間的 token 應用 stop gradient 操作,在前向傳播保持不變的同時在反向傳播時恢復其梯度傳導。
- 雙系數控制 β? 和 β? :通過兩個可調整的超參數對梯度進行縮放,其中 β? 控制原本被截斷的 NA&LP token 的梯度,促進收斂;β? 控制原本被截斷的 PA&LP token 的梯度,鼓勵探索。這使得訓練可以在探索與利用之間靈活調節。
梯度穩定性證明

上式是 CE-GPPO 的梯度表達式,可以觀察到,雖然 CE-GPPO 引入了 clip 區間外的梯度,其仍然能夠維持訓練穩定,一個核心的原因是梯度幅度是可控的:裁剪區間外的梯度被限制在 β?(1-?) 或 β?(1+?) ,其中 β? 和 β? 通常接近于 1,避免梯度爆炸。公式的其他項與 PPO 的梯度表達式一致,繼承了 PPO 的「保守更新」的特性。
實驗結果
為驗證 CE-GPPO 在穩定性與性能上的有效性,研究團隊在多個數學推理基準上進行了系統實驗,包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓練。
主要觀察:
- CE-GPPO 在所有 benchmark 上均超越強基線方法。
- 提升最顯著的任務為 AIME25 與 HMMT25,這類高難度推理任務對熵穩定性與探索能力最敏感,驗證了 CE-GPPO 在保持探索性的同時確保收斂的效果。
- 模型規模越大,CE-GPPO 帶來的收益越明顯,說明方法擁有能夠 scale 到更大規模模型的潛力。
此外,訓練過程中對比了各方法的熵動態曲線與驗證集準確率變化:
- GRPO 出現顯著的熵塌縮,訓練后期輸出趨同;
- DAPO 通過 clip-higher 緩解了塌縮,但存在 “熵反彈”,后期出現過度探索;
- CE-GPPO 保持穩定且中等偏高的熵水平,全程無震蕩,最終收斂性能更高。


實驗分析
超參數對熵變化的影響
CE-GPPO 的兩個核心超參數 β? 和 β? 控制了裁剪區間外梯度的權重,在 1.5B 與 7B 模型上進行了系統超參數實驗,結果如圖所示:
- 當 β? 較大(例如 β?=1, β?=0.5)時,模型更偏向利用,熵下降更快。
- 當 β? 較大(例如 β?=0.5, β?=1)時,模型傾向于探索,熵下降變緩且保持在較高水平,甚至也有可能出現熵上升的趨勢。
這一現象驗證了 CE-GPPO 的 “可控熵調節” 機制:通過調整兩個系數,訓練可以在「快速收斂」與「持續探索」之間取得理想平衡。

熵變化與性能的關系
進一步的,研究還分析了熵變化與性能之間的關系,并得出了以下結論:
- 維持相對高且穩定的熵通常有利于訓練過程中的持續性能提升,熵的過快下降和上升都不利于模型性能的穩定提升。
- 給予 PA&LP tokens 更大的梯度權重 β? ,同時給予 NA&LP tokens 更小的權重 β? ,有助于維持模型的探索能力,更有利于性能提升。
- CE-GPPO 對超參數具有魯棒性,在不同規模模型上,β?=0.5/0.75 和 β?=1 的設置都能帶來顯著的性能提升。
訓練穩定性實證性驗證
為了驗證 CE-GPPO 的訓練穩定性,研究可視化分析了訓練過程中 KL 散度和 gradient norm,并與 GRPO 的訓練動態進行對比,結果表明,CE-GPPO 雖然納入了 clip 區間外 token 的梯度,但由于梯度限制在固定區域,所以其整體訓練過程是平穩的。

與其他 RL 算法比較
研究還對比了 CE-GPPO 與其他近期提出的強化學習算法的性能,比如 CISPO 和 GSPO 算法,CE-GPPO 在不同基準上取得了最好的結果,進一步的,可以分析出如下結論:
- CISPO 雖然采用了類似的通過 stop gradient 的方法保留梯度,但在訓練后期仍出現熵急劇下降和性能崩潰的現象,它與 CE-GPPO 的區別主要在于 CE-GPPO 繼承了 PPO 的悲觀更新的特性,并且 CE-GPPO 對于 clip 區間外梯度的管理更加細粒度,這些原因導致 CE-GPPO 的性能超過 CISPO 算法。
- GSPO 使用序列級別的重要性采樣,這導致了大約 15% 的 token 被裁剪,而 CE-GPPO 方法納入了 clip 區間外 token 的梯度,其對于采樣樣本的利用率更高,所以性能更好。

與其他熵調節方法的比較
最后,研究還比較了 CE-GPPO 和其他熵調節的算法,比如傳統的熵正則化以及 DAPO 的 clip-higher 策略,結果表明:
- 直接加入熵正則項雖然能延緩熵坍縮,但其對超參數稀疏很敏感,并且性能均較差。
- DAPO 的 clip higher 策略雖然能納入部分高熵 token 的梯度,但在訓練后期出現熵反彈和過度探索的現象,這限制了模型的收斂。
- CE-GPPO 全程保持了較為平穩的熵曲線,并且性能隨訓練不斷提升,達到了最優性能。






























