国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

GRPO訓練不再「自嗨」!快手可靈 x 中山大學推出「GRPO衛兵」,顯著緩解視覺生成過優化

人工智能 新聞
作為首先關注 GRPO 在視覺生成中過優化現象的研究,GRPO-Guard 通過比率歸一化(RatioNorm)和跨步梯度平衡,有效穩定策略更新,恢復裁剪機制對正樣本的約束,并緩解過度優化。

論文第一作者為王晶,中山大學二年級博士生,研究方向為強化學習與視頻生成;通訊作者為中山大學智能工程學院教授梁小丹。

目前,GRPO 在圖像和視頻生成的流模型中取得了顯著提升(如 FlowGRPO 和 DanceGRPO),已被證明在后訓練階段能夠有效提升視覺生成式流模型的人類偏好對齊、文本渲染與指令遵循能力。

在此過程中,重要性比值的 clip 機制被引入,用于約束過于自信的正負樣本梯度,避免破壞性的策略更新,從而維持訓練的穩定性。然而,實證分析顯示,該機制存在系統性偏差:其均值長期低于 1,導致過度自信的正梯度無法得到有效限制;同時,不同去噪步下比值的分布方差差異顯著,使得部分步驟的 clip 機制失效。

結果,模型在訓練過程中容易陷入過度優化狀態——即代理獎勵持續上升,但圖像質量及文本與提示的對齊度反而下降,導致優化后的模型在實際應用中效果不佳。

圖像質量隨優化過程的變化如下:

為此,中山大學、快手可靈以及港中文 MMLab 等團隊聯合提出了 GRPO-Guard,這是首個針對 GRPO 在流模型中出現的過度優化問題而設計的解決方案。GRPO-Guard 能在保證快速收斂的同時,大幅降低過度優化的風險。

在 Flow-GRPO、DanceGRPO 等多種 GRPO 變體、不同擴散骨干模型(如 SD3.5-M、FLUX1.dev),GRPO-Guard 在文本渲染、GenEval、PickScore 等多種代理任務中均展現出穩定顯著的提升,同時有效緩解 reward hacking 現象,提高優化后模型的實際應用價值。

目前該項目的論文和代碼均已開源:

  • 論文標題:GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
  • 論文鏈接:https://arxiv.org/abs/2510.22319
  • 代碼地址:https://github.com/yifan123/flow_grpo

核心問題:比值分布偏移破壞 Clip 約束

在 FlowGRPO 中,通常采用高斯概率函數計算重要性比值中的

由于二階項的引入,log-importance ratio 在 off-policy 情況下會受到二次項的影響,表現出均值低于 1 且不同去噪步驟(denoising step)方差差異顯著的現象。

具體來說,二階項 的影響,使得重要性比值的均值

偏向小于 1,同時方差隨著去噪步驟的增加而逐漸增大。

理想情況下,重要性比值的均值應接近 1,以保證左右 clip 區間均衡,使有害的正負樣本梯度能夠被有效約束。然而,均值偏移和方差差異會導致預先設定的 clip 機制失效:一方面,正樣本梯度無法被充分約束;另一方面,部分步驟的 clip 機制失效,從而使策略(policy)陷入過度優化狀態。

此外,FlowGRPO 中不同去噪步驟的梯度存在顯著差異。具體而言

其中,受系數梯度系數  影響,高噪聲步驟的梯度貢獻較小,而低噪聲步驟的梯度貢獻較大,這可能導致模型在訓練中偏向于單一的噪聲條件。不同步驟的梯度系數(左一)及實際梯度貢獻(左二)如圖所示:

解決思路:RatioNorm 和跨步梯度平衡

針對上述問題,為每個去噪步驟單獨設定特定的 clip 范圍顯得過于繁瑣。為此,我們提出 GRPO-Guard,在原有 GRPO 框架上引入兩項關鍵改進:

  • 比率歸一化(RatioNorm):對每個去噪步驟的重要性比值分布進行標準化,使其均值接近 1,方差保持一致,從而恢復 clip 機制的有效性,避免因正樣本裁剪失效而引發的過度優化。

該機制對梯度的影響如下所示:

  • 跨步梯度平衡:基于 RatioNorm 對各去噪步驟的梯度進行均衡,使策略在整個噪聲時間表上均勻探索,如右圖(右 1)所示。這不僅防止了單步過擬合,還提升了訓練的穩定性與生成多樣性。整體策略損失(policy loss)如下所示:其中

經過 RatioNorm 調整后的重要性比值分布對比:

FlowGRPO:均值小于 1,破壞性正樣本約束失效

GRPO-Guard:均值接近 1,破壞性正樣本得到約束

實驗結果:顯著緩解過優化

我們在 FlowGRPO 和 DanceGRPO 兩種不同的 GRPO 算法、SD3.5-M 和 Flux1.dev 兩種擴散骨干模型,以及 GenEval、PickScore 和文本渲染等多種任務上驗證了 GRPO-Guard 的有效性。實驗結果表明,GRPO-Guard 能顯著緩解過度優化現象,同時保持與 baseline 相近的性能提升。

具體而言,不同任務的 proxy score 與 gold score 對比顯示:在 baseline 方法中,gold score 存在明顯下降趨勢,而在 GRPO-Guard 下,這一下降趨勢被顯著緩解。

訓練過程圖像質量可視化:FlowGRPO/DanceGRPO 等算法隨著訓練的進行,策略(policy)過度優化問題明顯,導致圖像質量顯著下降。GRPO-Guard 則在訓練過程后期仍然保持了較高的圖像質量。

更多可視化樣例顯示,在 baseline 方法下,在文本響應和圖像質量都呈現出明顯的退化,而 GRPO-Guard 能在提升目標 reward 的同時較好地保持文本響應和圖像質量。

在 PickScore 任務中,baseline 方法在訓練后期生成的人體比例存在不一致現象,且多人臉型過于相似,極大影響了生成多樣性,GRPO-Guard 顯著緩解了這個問題。

總結與展望:邁向更穩健的視覺生成式強化學習

作為首先關注 GRPO 在視覺生成中過優化現象的研究,GRPO-Guard 通過比率歸一化(RatioNorm)和跨步梯度平衡,有效穩定策略更新,恢復裁剪機制對正樣本的約束,并緩解過度優化。實驗表明,無論在不同 GRPO 變體、擴散骨干模型,還是多種代理任務中,GRPO-Guard 都能保持甚至提升生成質量,并提升訓練的穩定性和多樣性。

本質上過優化問題的出現是由于 proxy score 和 gold score 的巨大差距而導致的,雖然 GRPO-Guard 從優化過程上緩解了過優化現象,但并未徹底根治。未來,應該構建更精確的獎勵模型,使代理分數更接近真實評估(gold score),從而進一步減少 reward hacking 并提升優化效果。這將為 GRPO 在流模型及更廣泛的生成任務中的實際應用提供更可靠的技術保障。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-05-19 11:46:21

2024-04-11 07:09:43

大模型人工智能AI

2021-02-24 15:38:37

數據語言架構

2024-01-29 06:40:00

AI模型

2020-11-05 16:21:15

中山大學

2021-11-16 15:37:43

AI 數據人工智能

2025-03-17 10:25:28

2025-03-17 12:48:50

2014-11-13 10:17:30

中山大學新炬網絡學院大數據技術

2016-12-24 00:08:11

教育信息化

2015-11-18 17:12:25

太一星晨/應用交付

2016-07-15 09:53:27

太一星晨

2022-11-04 17:02:31

AI模型

2024-01-12 13:10:06

AI數據

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2024-02-29 13:55:00

模型訓練

2023-03-14 14:06:52

訓練模型

2023-10-30 17:23:54

數據模型
點贊
收藏

51CTO技術棧公眾號

国产精品午夜春色av| 亚洲一级二级三级在线免费观看| 日本欧美在线视频| 色婷婷久久一区二区三区麻豆| mm131午夜| av网站大全在线观看| a美女胸又www黄视频久久| 国产一区二区黑人欧美xxxx| 青青久草在线| 一区二区三区四区乱视频| 日韩精品一区二区三区不卡| 久久91视频| 亚洲国产成人精品一区二区| h视频在线观看免费| 午夜亚洲国产au精品一区二区| 国产成人福利视频| 日韩久久精品一区| 国产伦精品一区二区三区高清| 欧美日韩福利在线| 国产精品美女一区二区三区| 国产69精品久久久久久| 日韩一区二区三区精品| 久久久精品午夜少妇| 国产精品乱子乱xxxx| 在线观看日韩| 7777精品久久久大香线蕉| 亚洲国产一区二区三区在线播| 欧美在线日韩| 日韩电视剧免费观看网站| √天堂8在线网| 国产精品88av| 欧美日韩国产91| 99香蕉久久| 精品久久久免费| 在线中文字幕av| 一本高清dvd不卡在线观看| 成人免费黄色网页| 91精品国产色综合久久ai换脸| 男人天堂av片| 91小视频免费看| 欧美精品第三页| 一区二区三区免费网站| 四虎影视在线观看2413| 欧美久久久影院| а√在线中文网新版地址在线| 亚洲精品成人av| 亚瑟国产精品| 欧美在线色视频| 色影院视频在线| 日韩欧美亚洲另类制服综合在线| 高清在线视频不卡| 久久精品夜夜夜夜夜久久| 99re8这里有精品热视频8在线| 91精品国产乱码久久久久久久久| 超碰成人久久| 精品91免费| 国产**成人网毛片九色 | 日韩视频网站在线观看| 久久久91精品国产| 欧美人成在线观看ccc36| 久久国产生活片100| 欧美伊久线香蕉线新在线| 亚洲黄色免费看| 国产精品91一区二区| 成人黄色一区二区| 国产精品久久精品视| 久久国产精品99久久久久久老狼| 欧美一区二区麻豆红桃视频| 国产成人一区二区三区| 欧美日韩亚洲一区二区三区在线| 免费精品视频一区二区三区| 国产成人综合在线播放| 新呦u视频一区二区| 亚洲成av人电影| 1stkiss在线漫画| 色天天综合色天天久久| 日韩电影免费观看| 久久亚洲精品成人| 一区二区三区免费播放| 久久久久久网| 一本久道中文无码字幕av| 精品国产电影一区| 六月婷婷综合| 777777777亚洲妇女| 国产欧美日韩一级| 成年人视频在线免费| 欧美亚洲禁片免费| 国产午夜精品一区在线观看 | 亚洲第一区在线| 一区二区三区日本久久久| 一色桃子一区二区| 欧美日韩激情| 51xx午夜影福利| 天天色综合天天| 日本黄色一区| 一本色道综合亚洲| 91在线视频网址| 成人做爽爽免费视频| 日韩a级黄色片| 欧美精品午夜| 欧美一区二区二区| 欧美日日夜夜| 欧美交换配乱吟粗大25p| 精品国产91久久久久久| 电影一区二区三区久久免费观看| 欧美日韩一区二区三| 亚洲国产精品久久久久秋霞影院| 素人啪啪色综合| 先锋影音一区二区三区| 色久综合一二码| 成人影视亚洲图片在线| 性欧美videossex精品| 亚洲欧美国产高清va在线播| 亚洲三级视频| 91午夜理伦私人影院| 久久蜜桃av一区二区天堂| 国产最新在线| 亚洲xxxxx| 午夜婷婷国产麻豆精品| 国产精品对白久久久久粗| 美女av免费观看| 日韩精品一区在线| 亚洲人体偷拍| 女人天堂在线| 91久久中文字幕| 激情成人中文字幕| 精品国产乱码久久久| 成人短剧在线观看| 亚洲精品a区| 91成人免费视频| 久久精品人人做人人爽电影蜜月| 成人动漫在线观看视频| 999久久久国产精品| 农村少妇一区二区三区四区五区| 国产日产欧美一区二区| 欧美一区二区三区精品| 国产区一区二| 你懂的视频欧美| 草草草在线视频| 按摩亚洲人久久| 99re成人精品视频| 91精品影视| 日韩在线综合网| 欧美另类极品videosbestfree| 不卡视频免费播放| www999久久| 91n.com在线观看| 欧美精品亚州精品| 日本一区二区三区四区在线视频| 国产在线视频欧美一区| 无码aⅴ精品一区二区三区浪潮| 国产精品自拍一区| 中文字幕一区久| 黄色一级视频播放| 国产婷婷97碰碰久久人人蜜臀 | 亚洲天堂网在线观看| 丁香亚洲综合激情啪啪综合| 五月婷婷丁香色| 91高清免费视频| 亚洲成人精品在线观看| 91精品国产麻豆国产在线观看| 四虎在线视频| 精品久久精品久久| 亚洲第一精品福利| 成人午夜av在线| 麻豆国产一区二区三区四区| 精品剧情v国产在线观看| 97se视频在线观看| 欧美精品一区二区精品网| 超碰在线一区| 亚洲国产精华液| 久久综合给合久久狠狠色| 亚洲精品wwww| 久久日韩粉嫩一区二区三区| 欧美偷拍综合| 午夜小视频福利在线观看| 亚洲国产精品无码av| 日韩av观看网址| 欧美一区二区三区视频在线 | 在线观看麻豆| 丁香六月激情婷婷| 琪琪亚洲精品午夜在线| 日韩不卡在线观看日韩不卡视频| 亚洲天堂av在线| 在线黄色免费观看| ts人妖另类在线| 亚洲一级黄色av| 性久久久久久久久| 9999在线视频| 开心久久婷婷综合中文字幕| 九色porny91| 成人一区二区三区四区| 亚洲人成毛片在线播放| 亚洲午夜久久久久久久久电影网| 日日夜夜精品视频免费| 另类春色校园亚洲| 高清电影在线免费观看| 性网站在线免费观看| 中文字幕日韩在线播放| 欧美午夜宅男影院在线观看|