国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清華、NVIDIA、斯坦福提出DiffusionNFT:基于前向過程的擴散強化學習新范式,訓練效率提升25倍

人工智能 新聞
DiffusionNFT 的提出,不僅為擴散模型的強化學習提供了一個高效、簡潔且理論完備的新框架,也對更廣泛的生成模型對齊研究具有啟發意義。

清華大學朱軍教授團隊, NVIDIA Deep Imagination 研究組與斯坦福 Stefano Ermon 團隊聯合提出了一種全新的擴散模型強化學習(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。該方法首次突破現有 RL 對擴散模型的基本假設,直接在前向加噪過程(forward process)上進行優化,在徹底擺脫似然估計與特定采樣器依賴的同時,顯著提升了訓練效率與生成質量。文章共同一作鄭凱文和陳華玉為清華大學計算機系博士生。

  • 論文標題:DiffusionNFT: Online Diffusion Reinforcement with Forward Process
  • 論文鏈接:https://arxiv.org/abs/2509.16117
  • 代碼倉庫:https://github.com/NVlabs/DiffusionNFT

背景 | 擴散模型的 RL 困境

近年來,強化學習在大語言模型(LLMs)后訓練中的巨大成功,催生了人們將類似方法遷移到擴散模型的探索。例如,FlowGRPO 等方法通過將擴散采樣過程離散化為多步決策問題,從而在反向過程上應用策略梯度優化。然而,這一思路存在多重根本性局限:

1. 似然估計困難:自回歸模型的似然可精確計算,而擴散模型的似然只能以高開銷近似,導致 RL 優化過程存在系統性偏差。

2. 前向–反向不一致:現有方法僅在反向去噪過程中施加優化,沒有對擴散模型原生的前向加噪過程的一致性進行約束,模型在訓練后可能退化為與前向不一致的級聯高斯。

3. 采樣器受限:需要依賴特定的一階 SDE 采樣器,無法充分發揮 ODE 或高階求解器在效率與質量上的優勢。

4.CFG 依賴與復雜性:現有 RL 方案在集成無分類器引導 (CFG) 時需要在訓練中對雙模型進行優化,效率低下。

因此,如何設計一種既能保留擴散模型原生訓練框架,又能高效融入強化學習信號的統一方法,是亟待探索的問題。

方法 | 基于前向過程的負例感知微調

DiffusionNFT 提出了一個全新的思路:把強化學習直接作用于擴散的前向加噪過程,而非反向去噪軌跡。這一設計帶來了范式性的轉變。

核心機制包括:

正負對比的改進方向:在采樣生成中,利用獎勵信號將樣本劃分為正例與負例,從而定義出一個隱式的 “改進方向”。與只使用正樣本的拒絕采樣微調(Rejection FineTuning, RFT)不同,DiffusionNFT 顯式利用負樣本信號,確保模型有效 “避開” 低質量區域。

負例感知微調 (Negative-aware FineTuning, NFT):通過一種巧妙的隱式參數化方式,從目標模型同時定義正向策略與負向策略,將正負分布對比轉化為單一網絡的訓練目標,不需額外判別器或引導模型。

強化指導 (Reinforcement Guidance):在數學上,DiffusionNFT 將優化目標刻畫為對舊策略分布的偏移量 ?,這一過程與 CFG 類似,但不依賴雙模型結構,而是內生于訓練目標中。

這樣的設計使 DiffusionNFT 同時滿足以下優勢:

1. 前向一致性:訓練目標嚴格符合擴散的 Fokker–Planck 方程,不破壞與前向過程的一致性,使得訓練后的模型仍然是良定義的擴散模型。

2. 采樣器自由:訓練與采樣徹底解耦,可使用任意黑盒 ODE/SDE 求解器,擺脫對一階 SDE 的依賴;同時在訓練時只需存儲最終樣本與對應獎勵值,無需整條采樣軌跡。

3. 似然無關:不再需要變分下界或反向軌跡似然估計,訓練只依賴生成圖像與獎勵。

4.CFG-free 原生優化:直接學習到獎勵引導的生成能力,避免 CFG 的推理開銷,同時仍可兼容 CFG 進一步提升性能。

實驗 | 高效性與生成質量

研究團隊在多個獎勵模型上驗證了 DiffusionNFT 的有效性。主要結果包括:

大幅效率提升:在 GenEval 任務上,DiffusionNFT 僅需 1k 步 即可將得分從 0.24 → 0.98,而 FlowGRPO 需超過 5k 步才能達到 0.95。整體上,DiffusionNFT 在不同任務上表現出 3×~25× 的訓練效率優勢。

CFG-free 場景下顯著提升:即便完全不依賴 CFG,DiffusionNFT 也能在美感、對齊度等方面顯著優于原始模型。

多獎勵聯合優化:在 SD3.5-Medium 上同時優化 GenEval、OCR、PickScore、ClipScore、HPSv2.1 等多種獎勵,最終模型在所有指標上均超越原始模型,與只針對單一獎勵進行優化的 FlowGRPO 持平,并超過更大規模的 SD3.5-L 與 FLUX.1-Dev 模型。

展望 | 向統一的生成對齊范式邁進

DiffusionNFT 的提出,不僅為擴散模型的強化學習提供了一個高效、簡潔且理論完備的新框架,也對更廣泛的生成模型對齊研究具有啟發意義。從語言模型到視覺生成,DiffusionNFT 展示了負例感知 + 前向一致性普適價值。它打破了似然估計與反向軌跡的限制,建立起監督學習與強化學習之間的橋梁。在未來,DiffusionNFT 有望推廣至多模態生成、視頻生成以及大模型對齊等更復雜場景,成為統一的生成優化范式。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-11-03 14:13:52

強化學習方法

2023-11-13 07:51:58

ChatGPT研究

2025-04-25 13:34:53

R1DeepSeekAgent

2025-06-09 09:32:35

2025-06-30 09:08:00

2020-04-15 16:44:38

谷歌強化學習算法

2025-10-20 08:50:00

2025-07-02 09:21:30

2024-09-18 10:37:00

強化學習AI模型

2025-10-21 09:06:00

2018-12-03 09:35:26

互聯網

2022-10-20 15:38:02

谷歌模型

2025-10-10 08:33:49

2025-06-27 10:10:43

AI模型技術

2025-02-10 08:40:00

訓練數據模型

2021-02-07 10:01:31

AI 數據人工智能

2022-11-02 14:02:02

強化學習訓練

2025-08-21 09:10:00

2025-10-24 17:29:54

2024-01-24 13:17:00

AI技術
點贊
收藏

51CTO技術棧公眾號

欧美日韩高清一区二区三区| 一本色道久久综合亚洲aⅴ蜜桃 | 成人亚洲精品777777大片| 国产剧情一区| 亚洲国产精品yw在线观看 | 美女100%一区| 中文字幕免费不卡| 日本精品一区二区三区高清 久久| 欧美性生活一级片| 欧美第一区第二区| 亚洲色图16p| 中文字幕的久久| 国产一区一区三区| 欧美日韩理论| 欧美孕妇性xx| 久久久久久久久成人| 亚洲电影成人av99爱色| 精品久久久久av影院| 美女国内精品自产拍在线播放| 欧美性猛交xxx乱大交3蜜桃| 国产精品美女久久久久久久久| 9l视频自拍9l视频自拍| 性欧美xxxx大乳国产app| 国产在线视频一区| 欧美天堂影院| 色在人av网站天堂精品| 亚洲精品日产| 亚洲黄色成人网| 97超碰人人在线| 亚洲成人av在线电影| 电影天堂久久| 国产精品国产三级国产| 日本精品一区在线观看| 成人的网站免费观看| 国产a级黄色大片| 激情国产一区二区| 午夜精品视频在线观看一区二区| 国产亚洲一级| 欧美日韩另类综合| 日韩不卡免费视频| 视频一区国产精品| 蜜桃视频一区二区三区| 亚洲自拍三区| 国模少妇一区二区三区| 可以免费看的黄色网址| 精彩视频一区二区三区| 青青草综合视频| 成人午夜精品一区二区三区| 免费看黄在线看| 久久亚洲春色中文字幕久久久| 黄色一级视频在线播放| 2020日本不卡一区二区视频| 成人小视频在线看| 久久久一区二区| 免费看涩涩视频| 国产精品国产馆在线真实露脸| 99青春婷婷视频| 又紧又大又爽精品一区二区| 日韩欧美在线番号| 51精品视频一区二区三区| 欧美巨大xxxx做受沙滩| 亚洲深夜福利网站| 日本少妇精品亚洲第一区| 国产97色在线|日韩| 欧美精品三区| 日韩精品成人一区二区在线观看| 久久99精品国产麻豆婷婷洗澡| 一级特黄妇女高潮| 日本一区二区三区四区| 色老板在线观看| 欧美三级资源在线| 欧美aa免费在线| 欧美国产高跟鞋裸体秀xxxhd| 久久爱www成人| 999精品视频一区二区三区| 首页综合国产亚洲丝袜| 欧美一级视频免费看| 亚洲精品伦理在线| 巨大荫蒂视频欧美大片| 中文字幕欧美视频在线| 精品久久美女| 欧美日韩高清在线一区| 久久综合久久鬼色| 亚洲嫩模一区| 亚洲欧洲一区二区三区在线观看| 欧美日韩大片免费观看| 久久久久久国产精品mv| 久久色在线观看| 国产亚洲依依| 国产亚洲免费的视频看| 欧美日韩黑人| 国产精品亚洲天堂| 亚洲夂夂婷婷色拍ww47| 青春草免费在线视频| 韩国v欧美v日本v亚洲| 一区在线免费观看| 国产美女网站在线观看| 欧美日韩综合视频| 欧美日韩在线精品一区二区三区激情综合 | 日韩大陆欧美高清视频区| 亚洲精品影片| 九色91在线视频| 国产精品久线在线观看| 国产在线激情视频| 性欧美暴力猛交69hd| 亚洲欧美日本日韩| 18成人免费观看视频漫画| 欧美一区二区三区日韩视频| 成人av动漫| 日本高清不卡三区| 亚洲欧美日韩一区二区 | 天天操天天摸天天爽| 精品视频在线免费| 亚洲日本一区二区三区在线| 欧美国产综合视频| 亚洲人妖av一区二区| 新片速递亚洲合集欧美合集| 亚洲自拍欧美色图| 国产亚洲精品超碰| 国产高潮在线| 91九色蝌蚪成人| 国产欧美一区二区三区网站| av片哪里在线观看| 国产主播在线一区| 国产欧美一区二区三区在线老狼| av3级在线| 91超碰在线电影| 综合久久国产九一剧情麻豆| 深夜视频一区二区| 色狠狠久久av五月综合|| 五月天婷婷综合| 国产一区二区三区不卡av| 在线观看17c| 欧美成人欧美edvon| 欧美激情第10页| 午夜在线不卡| 久久久久国产视频| 99天天综合性| 中老年在线免费视频| 麻豆传媒一区| 91福利视频网站| 国产精品视频一区二区三区四蜜臂| 无码播放一区二区三区| 亚洲男人天堂网站| 日韩电影免费一区| av毛片在线免费看| 国产高清在线精品一区二区三区| 亚洲国产精品久久人人爱蜜臀| 国产毛片久久久| 免费看国产黄色片| 久久精品国产一区二区三区| 国产成人av自拍| 香蕉成人av| 欧美图片激情小说| 国产一区二区三区直播精品电影 | 91精品国产麻豆国产自产在线| 91tv精品福利国产在线观看| 在线播放国产区| 国产欧洲精品视频| 欧美日韩在线视频一区| 欧美丝袜一区| 黄页免费在线| 国产精品男女猛烈高潮激情| 夜夜夜精品看看| 93在线视频精品免费观看| 污污的网站在线观看| 成人中文字幕+乱码+中文字幕| 亚洲国产婷婷综合在线精品| 成人免费看片39| 真不卡电影网| 超碰97在线资源| 91精品国产综合久久福利软件 | 午夜刺激在线| 欧美综合在线第二页| 一区二区三区在线视频播放| 日韩在线观看| 国产日本在线观看| 色中色综合成人| 中文字幕亚洲二区| 中文字幕久久午夜不卡| 精品久久一区| 日本在线观看www| 亚洲激情图片| 中文字幕在线成人| 欧美极品少妇xxxxⅹ高跟鞋| 人人狠狠综合久久亚洲婷婷| 日本在线观看网站| a级片一区二区| 欧美国产精品人人做人人爱| 亚洲私人影院在线观看| 在线中文字幕第一区| 丁香高清在线观看完整电影视频| 日韩视频免费播放| 国产精品久久视频| 欧美一区二区三区四区五区| 国内精品伊人久久久久av影院| 国产成人精品亚洲线观看| 国产一区电影| 国产乱人伦精品一区二区三区| 91超碰caoporn97人人|