国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

DanceGRPO:首個統一視覺生成的強化學習框架

人工智能 新聞
R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

本文由字節跳動 Seed 和香港大學聯合完成。第一作者薛澤岳為香港大學 MMLab@HKU 在讀博士生,在 CVPR、NeurIPS 等國際頂級會議上發表多篇研究成果。項目通訊作者為黃偉林博士和羅平教授。

R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

現在,我們推出名為 DanceGRPO 的創新框架,這是首個旨在統一視覺生成強化學習的解決方案,實現了單一強化學習算法在兩大生成范式(diffusion/rectified flow)、三項任務(文本到圖像、文本到視頻、圖像到視頻)、四種基礎模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五類獎勵模型(圖像 / 視頻美學、圖文對齊、視頻動態質量、二元獎勵)中的全面覆蓋。

圖片

  • 論文標題:DanceGRPO: Unleashing GRPO on Visual Generation
  • arXiv 鏈接:https://arxiv.org/pdf/2505.07818

動機

在生成式 AI 快速發展的這三年,RLHF 逐漸的走進了大家的視野,首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義,LLM 領域的 RLHF 方案百花齊放,發展的相對成熟一些,今年更催生了 R1 這一類的大爆款工作。同時,大家也發現,對于視覺生成任務,RLHF 對美感等指標幾乎有著決定性影響,但相較 LLM 的成熟度,生成領域的 RLHF 方案顯然沒那么成熟,目前的主流方案大概分為兩類:

1. Diffusion/Flow-DPO:這一類方法是也是直接來自于 LLM 的 DPO 的影響,在實際操作中,大體分為兩種方案,第一種是離線 DPO,即讓模型去生成一批數據,然后人工標注,然后讓好和壞的數據組成 pairs 送回模型去優化,第二種是在線 DPO,即在線生成數據,然后讓 reward model 實時打分,然后拿回去訓練,這兩種思路大同小異。在實際操作中,我們發現 DPO 對模型的效果比較微弱,比如 DPO 前后的生成結果區別并不是很大,原因也很好理解,DPO 并沒有拿 reward 作為信號去 reinforce 模型的學習,而是用一種類似 SFT 的方案去做,這種情況下對模型的作用并不是很大。

2. ReFL:這一類方案是 diffusion/rectified flow 所專有的,思路非常簡單直接,就是直接在 z_t 步下直接預測 z_0 的結果,然后 vae 去 decode 直接送進 reward model 去直接反向傳播進行優化。這一類方案在圖像上效果很明顯,但是因為要對 reward model 和 decode 后的 features 進行反向傳播,在面對 100 幀以上的視頻生成的時候顯存壓力很大。而且,目前 LLM 和 diffusion 聯合訓練已成為大勢所驅,ReFL 這種通過建模 z_t 和 z_0 的關系,并且直接反向傳播的方式,似乎和這一類模型的建模策略有著很大的 gap。

于是,利用強化學習對模型進行優化的思路也就呼之欲出了,之前社區也對強化學習優化生成模型有過一些探索,例如 DDPO 和 DPOK,但是他們都有很強的局限性:

1. 嘗試的數據集非常小,一般小于 100 個 prompts,

2. 只針對文生圖 diffusion model 進行了測試,并沒有涉及到目前流行的 rectified flow 和視頻生成模型

實現目標 

于是,我們的目標也呼之欲出,我們的強化學習算法需要滿足以下特征:

1. 提升明顯,reward 上漲的足夠多

2. 在 video 上實現的時候顯存壓力不能大,即,不能直接反向傳播 reward model 和 vae

3. 能在大型 prompt 數據集上訓練

4. 能遷移到 rectified flow 和視頻生成模型

DanceGRPO

核心貢獻

我們是第一個視覺生成 + 強化學習的大一統框架,一個 DanceGRPO,可以應用在 diffusion 和 rectified flow,可以應用在文生圖,文生視頻,圖生視頻三類任務,我們在四個 foundation model 上進行了測試,包括了 Stable Diffusion,FLUX,HunyuanVideo,SkyReel-I2V,我們還在五個 reward model 上進行了測試。

方案設計

受最近在 LLM 大火的 GRPO 影響,我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩定訓練,首先我們要 claim 的點是,diffusion model 和 rectified flow 的出發點雖然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況,在這種 case 下,他們的采樣方程都可以用 SDE 實現,具體的公式推導參見原文即可。

接下來,我們就開始實現啦,核心的思路還是 follow 了 DeepSeek 的 GRPO 策略,即,用一個 prompt,生成一批數據,然后用 GRPO 的目標函數進行優化,但我們并沒有加入 KL 散度的正則項,因為發現這一項實際上作用不大,以下是我們實驗過程中的一些核心發現:

1. 同一個 prompt 的初始化噪聲最好相同,不然容易 reward hacking

2. 我們可以采樣一個子集的 timesteps 來加速訓練,同時讓模型見過更多的 prompts

3. 實現中可以使用多個 reward model 疊加,而且實現的時候最好是多個 advantage 來疊加

4. DanceGRPO 可以學會 best-of-n inference scaling 的軌跡

5. 強化學習會削弱生成的多樣性

6. 訓練盡量不要打開 cfg,如果非要打開的話,一批 prompt 只能更新一次梯度

算法流程如下:

圖片

接下來是關于 reward model 的討論,我們一共使用了五類 reward model:

(1) 圖像美感 

(2) 視頻美感 

(3) 圖文匹配 

(4) 視頻動態質量 

(5) 我們提出了一種新的 reward model,即把美感 & 圖文匹配 reward model 的結果給二值化,意思是大于某個閾值就是 1,小于這個閾值就是 0

我們在文生圖,文生視頻和圖生視頻上進行了測試。

實驗結果 

我們使用了 HPS-v2.1 和 Clip score 去優化模型,結果如下所示:

圖片


圖片

我們利用 VideoAlign 在 HunyuanVideo 上進行訓練:

圖片

以下是一些 reward 曲線:

圖片


圖片


ps:i2v 任務有一些區別,我們拿視覺美感 reward model 訓練的時候很容易發散,個人認為是因為 i2v 的美感更多取決于首幀,這個任務本身只有 motion quality 可言,所以我們只選擇了使用 motion quality reward 去進行訓練。

這是一個隨著 FLUX 訓練迭代次數的增加,可視化的變化,我們在訓練過程中引入隨機性,但是可視化是不會引入的,就是正常的 ODE solver。

圖片

更多的結果歡迎看原文~

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-28 09:15:00

AI視覺模型

2025-11-18 08:50:00

2024-12-09 08:45:00

模型AI

2020-06-05 08:09:01

Python強化學習框架

2020-05-06 16:07:05

百度飛槳

2020-11-16 08:54:05

Google 開源技術

2025-10-30 09:13:55

2025-05-28 11:55:56

模型開源框架

2025-11-06 08:56:00

2018-08-29 08:13:22

Google 學習框架技術

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2020-11-12 19:31:41

強化學習人工智能機器學習

2022-11-02 14:02:02

強化學習訓練

2021-06-25 15:36:37

框架AI開發

2023-11-07 07:13:31

推薦系統多任務學習

2019-01-31 10:42:04

框架AI開發

2023-07-20 15:18:42

2023-07-21 14:58:05

智能開發
點贊
收藏

51CTO技術棧公眾號

久久九九电影| 日韩成人av电影在线| 羞羞在线观看网站| 国产偷自视频区视频一区二区| 中文字幕不卡在线播放| 亚洲国产欧美一区二区三区同亚洲| 久久久精品在线视频| 亚洲视频www| 8050国产精品久久久久久| h片在线播放| 亚洲欧美日韩中文在线| 中文字幕乱码亚洲精品一区| 亚洲狠狠丁香婷婷综合久久久| 欧美亚洲一区二区在线观看| 中文字幕av一区中文字幕天堂| 欧美精品自拍| 色综合桃花网| 天堂成人免费av电影一区| 亚洲在线一区二区| 黄在线观看免费网站ktv| 国产精品97| 精品久久中文字幕久久av| 欧美日韩日本视频| 成年人羞羞的网站| 自拍偷拍亚洲在线| 亚洲欧洲精品在线| 91理论片午午论夜理片久久| 日韩av资源在线播放| 久久99国产综合精品女同| 欧美国产日韩中文字幕在线| 国产二区视频在线| 午夜精品视频在线| 日韩精品综合在线| 大肉大捧一进一出好爽视频| 日本爱爱免费视频| 亚洲成人三级| 国产伦一区二区三区| 国产一区二三区| 国产电影一区在线| 久久香蕉综合色| 欧美成人久久| 成人a在线视频| 国产一区二区三区站长工具| 97色在线视频| 亚洲精品国产setv| 45www国产精品网站| 国产精品久av福利在线观看| 欧美激情videos| 一级毛片精品毛片| 欧美激情第三页| 精品亚洲自拍| 91高清免费视频| 国产剧情在线观看一区| 久久久久久亚洲精品中文字幕| 国产精品日本一区二区不卡视频| 亚洲精品综合精品自拍| 成人性生活av| 久久精品国亚洲| 精品国产91乱码一区二区三区四区| 久久久久国色av免费看影院| 男人添女人下部视频免费| 狠狠色丁香久久婷婷综| 懂色av一区二区三区四区五区| 狠狠色狠狠色综合系列| 欧美日韩激情四射| 丁香婷婷综合激情五月色| 国产亚洲欧美在线视频| 国产精品高潮呻吟久久av黑人| 国产精品久久久久久av公交车| 久久视频在线观看免费| 五月天婷婷综合社区| 亚洲影院免费观看| 日韩精品久久一区二区三区| 久久精品123| 日本精品福利视频| 久久综合九色综合久久久精品综合| 成人淫片免费视频95视频| 红桃av永久久久| 免费污视频在线| 欧美xxxx做受欧美| 91亚洲国产| 最近的2019中文字幕免费一页 | 亚洲搞黄视频| 91麻豆精品国产91| 另类小说色综合| 一区二区三区国产| 日本免费在线视频| 中文字幕一精品亚洲无线一区 | 九九热在线视频观看这里只有精品| 久久国产精品首页| 国产一区二区三区站长工具| aa日韩免费精品视频一| 国产自产2019最新不卡| 自拍偷拍一区二区三区四区| 欧美综合欧美视频| 成人精品一区二区三区电影| 国产精品一区二区三区久久 | 亚洲成人av在线影院| 国产精品一色哟哟哟| 国产精品狠色婷| 亚洲精品社区| 国产欧美日韩网站| 精品国产成人av| 久久久国产精品网站| 3d精品h动漫啪啪一区二区| xxxxxhd亚洲人hd| 在线视频欧美性高潮| 九色精品91| 日本一区二区精品| 国产精品福利在线播放| 黄色网页在线观看| 欧美三电影在线| 日本久久二区| 翡翠波斯猫1977年美国| 不卡视频在线观看| 91xxx视频| 依依成人精品视频| 波多野结衣久久精品| 国产精品久久久久久久久借妻 | 福利网在线观看| 一区二区三区欧美亚洲| 麻豆mv在线观看| 91免费精品国偷自产在线| 粉嫩av一区二区三区粉嫩 | 国产中文字幕免费观看| 欧美怡红院视频| 国产精品宾馆| 国产成人三级视频| 欧美日韩一区二区在线视频| 欧美亚洲国产日韩| 久久久视频精品| 久久精品国产精品亚洲红杏| 日本福利片在线| 欧美午夜不卡视频| 精品少妇一区| 欧美国产日韩激情| 日韩欧美亚洲国产精品字幕久久久 | www.在线欧美| 在线观看v片| 偷窥少妇高潮呻吟av久久免费| 黄动漫网站在线观看| 一区二区高清在线| 欧美天堂一区二区| 亚洲春色综合另类校园电影| 午夜精品一区二区三区电影天堂| 亚洲精品一区二区| 久久深夜福利免费观看| 日韩va亚洲va欧美va久久| 男女激情网站| 欧美精品激情blacked18| 国产成人啪免费观看软件| 黄色网页在线免费观看| 97av自拍| 色综合中文综合网| 欧美三级情趣内衣| 成人免费看片网站| 亚洲国产视频一区| 九九免费精品视频在线观看| 91亚洲精品在线观看| 日韩资源av在线| 欧美午夜精品久久久久久孕妇| 主播大秀视频在线观看一区二区| 精品无码国产一区二区三区av| 亚洲国产精久久久久久| 99色在线视频| 久久久久久久久久久久电影| 五月天色婷婷综合| 3d成人动漫网站| 亚洲大胆av| av基地在线| 欧美xxxx黑人又粗又长密月| 91精品麻豆日日躁夜夜躁| 久久精品五月| 91超碰在线播放| 欧美另类在线观看| 欧美日本三区| 欧美性猛交xxxx富婆弯腰| 三区在线视频| 日本三级久久久| 天天操天天综合网| 一区二区三区日本久久久| 毛片av在线播放| 久久精品色欧美aⅴ一区二区| 国产精品自拍一区| 涩涩网在线视频| 91社在线播放| 国产一区二区三区在线免费观看| 成人免费一区| 亚洲国产成人精品无码区99| 这里只有精品久久| www.亚洲人| 欧洲专线二区三区| 亚洲无限乱码一二三四麻| 91日本在线观看| 欧美在线播放高清精品| 美女诱惑一区二区| 黄色精品视频网站| av手机天堂| av资源站久久亚洲| 亚洲性视频网站|