国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

圖像領域再次與LLM一拍即合!idea撞車OpenAI強化微調,西湖大學發布圖像鏈CoT

人工智能
MAPLE實驗室提出通過強化學習優化圖像生成模型的去噪過程,使其能以更少的步驟生成高質量圖像,在多個圖像生成模型上實現了減少推理步驟,還能提高圖像質量。

OpenAI最近推出了在大語言模型LLM上的強化微調(Reinforcement Finetuning,ReFT),能夠讓模型利用CoT進行多步推理之后,通過強化學習讓最終輸出符合人類偏好。

無獨有偶,齊國君教授領導的MAPLE實驗室在OpenAI發布會一周前公布的工作中也發現了圖像生成領域的主打方法擴散模型和流模型中也存在類似的過程:模型從高斯噪聲開始的多步去噪過程也類似一個思維鏈,逐步「思考」怎樣生成一張高質量圖像,是一種圖像生成領域的「圖像鏈CoT」。

與OpenAI不謀而和的是,機器學習與感知(MAPLE)實驗室認為強化學習微調方法同樣可以用于優化多步去噪的圖像生成過程,論文指出利用與人類獎勵對齊的強化學習監督訓練,能夠讓擴散模型和流匹配模型自適應地調整推理過程中噪聲強度,用更少的步數生成高質量圖像內容。

圖片圖片

論文地址:https://arxiv.org/abs/2412.01243

研究背景

擴散和流匹配模型是當前主流的圖像生成模型,從標準高斯分布中采樣的噪聲逐步變換為一張高質量圖像。在訓練時,這些模型會單獨監督每一個去噪步驟,使其具備能恢復原始圖像的能力;而在實際推理時,模型則會事先指定若干個不同的擴散時間,然后在這些時間上依次執行多步去噪過程。

這一過程存在兩個問題:

1. 經典的擴散模型訓練方法只能保證每一步去噪能盡可能恢復出原始圖像,不能保證整個去噪過程得到的圖像符合人類的偏好;

2. 經典的擴散模型所有的圖片都采用了同樣的去噪策略和步數;而顯然不同復雜度的圖像對于人類來說生成難度是不一樣的。

如下圖所示,當輸入不同長度的prompt的時候,對應的生成任務難度自然有所區別。那些僅包含簡單的單個主體前景的圖像較為簡單,只需要少量幾步就能生成不錯的效果,而帶有精細細節的圖像則需要更多步數,即經過強化微調訓練后的圖像生成模型就能自適應地推理模型去噪過程,用盡可能少的步數生成更高質量的圖像。

圖片

值得注意的是,類似于LLM對思維鏈進行的動態優化,對擴散模型時間進行優化的時候也需要動態地進行,而非僅僅依據輸入的prompt;換言之,優化過程需要根據推理過程生成的「圖像鏈」來動態一步步預測圖像鏈下一步的最優去噪時間,從而保證圖像的生成質量滿足reward指標。

方法

MAPLE實驗室認為,要想讓模型在推理時用更少的步數生成更高質量的圖像結果,需要用強化微調技術對多步去噪過程進行整體監督訓練。既然圖像生成過程同樣也類似于LLM中的CoT:模型通過中間的去噪步驟「思考」生成圖像的內容,并在最后一個去噪步驟給出高質量的結果,也可以通過利用獎勵模型評價整個過程生成的圖像質量,通過強化微調使模型的輸出更符合人類偏好。

圖片圖片

OpenAI的O1通過在輸出最終結果之前生成額外的token讓LLM能進行額外的思考和推理,模型所需要做的最基本的決策是生成下一個token;而擴散和流匹配模型的「思考」過程則是在生成最終圖像前,在不同噪聲強度對應的擴散時間(diffusion time)執行多個額外的去噪步驟。為此,模型需要知道額外的「思考」步驟應該在反向擴散過程推進到哪一個diffusion time的時候進行。

為了實現這一目的,在網絡中引入了一個即插即用的時間預測模塊(Time Prediction Module, TPM)。這一模塊會預測在當前這一個去噪步驟執行完畢之后,模型應當在哪一個diffusion time下進行下一步去噪。

具體而言,該模塊會同時取出去噪網絡第一層和最后一層的圖像特征,預測下一個去噪步驟時的噪聲強度會下降多少。模型的輸出策略是一個參數化的beta分布。

由于單峰的Beta分布要求α>1且β>1,研究人員對輸出進行了重參數化,使其預測兩個實數a和b,并通過如下公式確定對應的Beta分布,并采樣下一步的擴散時間。

圖片圖片

圖片圖片

在強化微調的訓練過程中,模型會在每一步按輸出的Beta分布隨機采樣下一個擴散時間,并在對應時間執行下一個去噪步驟。直到擴散時間非常接近0時,可以認為此時模型已經可以近乎得到了干凈圖像,便終止去噪過程并輸出最終圖像結果。

通過上述過程,即可采樣到用于強化微調訓練的一個決策軌跡樣本。而在推理過程中,模型會在每一個去噪步驟輸出的Beta分布中直接采樣眾數作為下一步對應的擴散時間,以確保一個確定性的推理策略。

設計獎勵函數時,為了鼓勵模型用更少的步數生成高質量圖像,在獎勵中綜合考慮了生成圖像質量和去噪步數這兩個因素,研究人員選用了與人類偏好對齊的圖像評分模型ImageReward(IR)用以評價圖像質量,并將這一獎勵隨步數衰減至之前的去噪結果,并取平均作為整個去噪過程的獎勵。這樣,生成所用的步數越多,最終獎勵就越低。模型會在保持圖像質量的前提下,盡可能地減少生成步數。

圖片圖片

將整個多步去噪過程當作一個動作進行整體優化,并采用了無需值模型的強化學習優化算法RLOO [1]更新TPM模塊參數,訓練損失如下所示:

圖片圖片

在這一公式中,s代表強化學習中的狀態,在擴散模型的強化微調中是輸入的文本提詞和初始噪聲;y代表決策動作,也即模型采樣的擴散時間;

代表決策器,即網絡中A是由獎勵歸一化之后的優勢函數,采用LEAVE-One-Out策略,基于一個Batch內的樣本間獎勵的差值計算優勢函數。

通過強化微調訓練,模型能根據輸入圖像自適應地調節擴散時間的衰減速度,在面對不同的生成任務時推理不同數量的去噪步數。對于簡單的生成任務(較短的文本提詞、生成圖像物體少),推理過程能夠很快生成高質量的圖像,噪聲強度衰減較快,模型只需要思考較少的額外步數,就能得到滿意的結果;對于復雜的生成任務(長文本提詞,圖像結構復雜)則需要在擴散時間上密集地進行多步思考,用一個較長的圖像鏈COT來生成符合用戶要求的圖片。

圖片圖片

通過調節不同的γ值,模型能在圖像生成質量和去噪推理的步數之間取得更好的平衡,僅需要更少的平均步數就能達到與原模型相同的性能。

圖片圖片

同時,強化微調的訓練效率也十分驚人。正如OpenAI最少僅僅用幾十個例子就能讓LLM學會在自定義領域中推理一樣,強化微調圖像生成模型對數據的需求也很少。不需要真實圖像,只需要文本提詞就可以訓練,利用不到10,000條文本提詞就能取得不錯的明顯的模型提升。

經強化微調后,模型的圖像生成質量也比原模型提高了很多。可以看出,在僅僅用了原模型一半生成步數的情況下,無論是圖C中的筆記本鍵盤,圖D中的球棒還是圖F中的遙控器,該模型生成的結果都比原模型更加自然。

圖片圖片

針對Stable Diffusion 3、Flux-dev等一系列最先進的開源圖像生成模型進行了強化微調訓練,發現訓練后的模型普遍能減少平均約50%的模型推理步數,而圖像質量評價指標總體保持不變,這說明對于圖像生成模型而言,強化微調訓練是一種通用的后訓練(Post Training)方法。

圖片圖片

結論

這篇報告介紹了由MAPLE實驗室提出的,一種擴散和流匹配模型的強化微調方法。該方法將多步去噪的圖像生成過程看作圖像生成領域的COT過程,通過將整個去噪過程的最終輸出與人類偏好對齊,實現了用更少的推理步數生成更高質量圖像。

在多個開源圖像生成模型上的實驗結果表明,這種強化微調方法能在保持圖像質量的同時顯著減少約50%推理步數,微調后模型生成的圖像在視覺效果上也更加自然。可以看出,強化微調技術在圖像生成模型中仍有進一步應用和提升的潛力,值得進一步挖掘。

參考資料:

https://arxiv.org/abs/2412.01243

責任編輯:武曉燕 來源: 新智元
相關推薦

2011-12-21 09:18:52

云計算開源

2013-08-20 09:31:48

2012-03-19 14:00:06

HP M275激光打印機

2020-07-02 13:10:49

PyWeChatSpy拍一拍Python

2021-10-11 20:19:16

AI

2016-04-13 20:37:42

EasyStack

2020-06-22 10:40:35

Python微信技術

2020-09-15 16:05:01

QQ微信移動應用

2017-12-13 17:00:14

2020-08-28 09:15:36

微信拍一拍移動應用

2020-08-21 17:39:15

微信拍一拍移動應用

2023-03-22 14:05:00

微軟AI

2024-10-24 23:37:33

2021-01-14 10:58:03

Python表情包微信

2025-06-10 05:00:00

2020-06-18 15:45:42

微信拍一拍功能

2023-11-08 07:55:48

2024-12-18 14:53:28

2024-09-13 06:32:25

2020-06-19 14:55:10

微信拍一拍社交
點贊
收藏

51CTO技術棧公眾號

日韩av高清在线看片| 91网在线观看| 精品国产乱子伦一区二区| 欧美日韩一级黄| 欧美亚洲视频一区| 成人一二三区| 久久精品国产精品| 美女写真理伦片在线看| 国产精品国产精品国产专区不蜜| 水蜜桃亚洲一二三四在线| 日韩精品久久| 欧美大片va欧美在线播放| 2018av在线| 色婷婷亚洲综合| 国产精品视频一区二区图片| 成人精品免费网站| 日本亚洲导航| 欧美涩涩网站| 国产精品免费看久久久香蕉| 国产一区二区三区免费观看在线| 日韩欧美激情四射| 在线观看黄网| 亚洲欧美日韩国产综合| 久久视频这里有精品| 亚洲一区二区伦理| 成人黄色免费网站在线观看| 理论片一区二区在线| 日韩在线不卡视频| 91精品论坛| 亚洲国产成人精品久久| 亚洲欧美视频一区二区| 在线精品亚洲一区二区不卡| 在线看中文字幕| 亚洲综合色自拍一区| 91av影院| 成人免费黄色网页| 久久国产精品成人免费观看的软件| 久久久国产一区二区三区| 欧美大胆成人| 日韩av在线影院| а√天堂中文在线资源8| 欧美一区二区国产| a视频在线免费看| 欧美日韩激情一区二区| 秋霞影院午夜丰满少妇在线视频| 日韩欧美国产视频| 激情福利在线| 欧美日韩美女一区二区| 黄a在线观看| 亚洲国产精久久久久久久| 91在线超碰| 国产亚洲一区二区精品| 国产亚洲精彩久久| 久久成人在线视频| 国产精品亚洲一区二区在线观看 | av五月天在线| 欧美日韩性生活片| 亚洲日本欧美中文幕| 国产精品亚洲d| 91在线国产观看| av免费观看大全| japanese23hdxxxx日韩| 日韩精品久久久久| 黄色精品视频| 欧美极度另类性三渗透| 国产一区二区三区天码| 国产美女久久精品香蕉69| 欧美日韩视频| 日韩欧美在线观看强乱免费| 国产在线一区二区综合免费视频| www.好吊操| 亚洲国产精品v| 在线观看国产视频| 日韩一二三四区| 国产精品久久久久久妇女| 久久久亚洲国产| 天天综合精品| 一个色的综合| 国产精品久久久久久久久搜平片| 污视频免费在线看| 欧美精品一区男女天堂| 亚洲一区二区三区免费| 5g国产欧美日韩视频| 麻豆国产欧美日韩综合精品二区| 日韩在线观看a| 舔着乳尖日韩一区| 超碰个人在线| 久久久久久网站| 99精品热视频只有精品10| 亚洲 自拍 另类小说综合图区| 一区二区三区高清| 人人超在线公开视频| 欧美激情中文网| 激情欧美一区| 尤物av无码色av无码| 一区二区在线看| www免费在线观看| 欧美激情aaaa| 久久精品网址| 肥女人的一级毛片| 亚洲国产天堂久久综合| 亚洲最大在线| 最新黄色av网站| 黄色成人av网| a成人v在线| 国产乱码一区| 国产欧美一区二区三区在线看蜜臀| 国产黄色在线| 国内精品视频在线| 精品一区二区三区蜜桃| 亚洲一区二区三区精品中文字幕 | jizz久久久久久| 91久久精品www人人做人人爽| 不卡视频在线看| 9色在线观看| 国产精品18久久久久久首页狼| 麻豆精品久久精品色综合| 最新在线地址| 九九热这里只有在线精品视| 天堂va蜜桃一区二区三区 | 福利微拍一区二区| 最新亚洲国产| 在线天堂一区av电影| 岛国视频午夜一区免费在线观看| 成人在线不卡| 美脚丝袜一区二区三区在线观看| 亚洲欧美乱综合| 激情久久一区二区| 日韩国产精品一区二区| 色综合激情五月| 国产精品免费大片| av观看免费在线| 日韩成人在线观看| 亚洲高清在线| 日韩专区一区二区| 欧美综合国产精品久久丁香| 97久久久精品综合88久久| 狠狠躁少妇一区二区三区| 丁香婷婷久久久综合精品国产 | 综合一区中文字幕| 日韩欧美中文字幕在线播放| 欧美日韩导航| 一区二区三区视频在线观看免费| 亚洲人成五月天| 日韩av成人高清| aaa在线观看| www.成人三级视频| 精品成人av一区| 欧美丝袜一区| 国产男女爽爽爽| 欧洲成人免费aa| 国产精品免费视频一区| 国产精品毛片aⅴ一区二区三区| 日韩 欧美 自拍| 亚洲精品一区二区三区婷婷月| 日韩成人av影视| 国产在线拍揄自揄拍视频 | 日本高清不卡一区二区三区视频| 日韩欧美亚洲在线| 日韩欧美综合一区| 奶水喷射视频一区| 人妖欧美1区| 国产精品夜夜夜爽张柏芝| 亚洲成人在线视频播放| 日本在线不卡一区| 国产极品人妖在线观看| 在线观看成人av| 亚洲人成电影在线播放| 成人福利视频网站| 大奶一区二区三区| www.aqdy爱情电影网| 国产精品久久久久久久av电影| 精品国产31久久久久久| 欧美午夜一区二区福利视频| 日本在线视频观看| 亚洲一区二区四区| 亚洲精品视频在线播放| av中文字幕在线不卡| 国产精品调教| 色资源网在线观看| 精品久久久久久乱码天堂| 欧美精品一区视频| 91丨九色丨尤物| 国产中文精品久高清在线不| 免费黄色在线视频网站| 欧美日韩最好看的视频| 国产亚洲一区二区精品| 最好看的中文字幕久久| 欧美91视频| 乱人伦视频在线| 久久久国产欧美| 国产一区在线播放| 91精品福利在线一区二区三区| 国产精品亚洲午夜一区二区三区 | 88在线观看91蜜桃国自产| 久久国内精品视频| 精品嫩草影院| 免费的黄网站在线观看| 国产一区二区网| 91性高湖久久久久久久久_久久99|