国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp 精華

發布于 2024-10-21 13:27
瀏覽
0收藏

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

文章鏈接:https://arxiv.org/pdf/2410.07171
項目鏈接:https://github.com/YangLing0818/IterComp

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

亮點直擊

  • 提出了第一個基于獎勵控制的迭代組合感知框架IterComp,以全面提升基礎擴散模型的組合性。
  • 精心挑選了模型庫,并開發了一個高質量的組合感知模型偏好數據集,該數據集包含大量圖像排序對。
  • 使用了新的迭代反饋學習框架,逐步增強獎勵模型和基礎擴散模型。
  • 與之前的SOTA方法進行的大量定性和定量比較表明,本文的方法在組合生成能力上具有顯著優勢。

總結速覽

解決的問題

現有的擴散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成組合性圖像時各有所長,有的擅長屬性綁定,有的則在空間關系上表現更好。然而,這些模型無法全面解決組合性生成的多方面需求,缺乏一種能夠綜合各模型優勢的方法。

總之,要解決以下兩個問題:

1. 如何提取不同模型在各自領域的優勢,并引導模型進行有效學習?

針對該問題,我們首先構建了模型庫(model gallery),其包含多種在不同方面表現出色的模型,每個模型都具備特定的組合生成偏好(composition-aware model preference)。我們嘗試通過擴散模型對齊方法,將base diffusion model與模型庫中的組合生成偏好進行對齊。


我們聚焦于compositional generation的三個關鍵方面:屬性綁定(attribute binding)、空間關系(spatial relationship)和非空間關系(non-spatial relationship)。為此,我們收集了不同模型在這些方面的偏好數據,并通過人工排序,構建了一個面向組合生成的模型偏好數據集(composition-aware model preference dataset)。針對這三個方面,我們分別訓練三個composition-aware reward models,并對base模型進行多獎勵反饋優化。

2. 組合生成任務很難優化,如何更充分地學習到不同模型的組合偏好?

我們在diffusion領域創新地引入迭代式學習框架(iterative feedback learning),實現reward models與base diffusion model之間“左腳踩右腳登天”。


具體地,在上述第一輪優化后,我們將optimized base diffusion model以及額外選擇的其他模型(例如Omost等)添加進model gallery。對新增模型進行偏好采樣,與初始model gallery中的圖像按照預訓練的reward model構建圖像對。這些圖像對被用于進一步優化獎勵模型,隨后繼續用更新的獎勵模型優化基礎擴散模型。具體的流程如下偽代碼所示:

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

提出的方案

本文提出了一個名為IterComp的框架,通過聚合多個模型在組合生成任務中的偏好,利用迭代反饋學習方法,逐步優化組合性生成能力。該框架構建了一個由六個強大的開源擴散模型組成的模型庫,并基于三項關鍵組合性指標(屬性綁定、空間關系、非空間關系)評估這些模型。隨后,通過圖像排序對的數據集訓練組合偏好獎勵模型,并在封閉循環中使用迭代反饋學習方法逐步優化基礎模型和獎勵模型的組合性生成能力。

應用的技術

  • 多模型組合偏好聚合
  • 迭代反饋學習方法
  • 獎勵模型訓練
  • 組合性生成指標評估(屬性綁定、空間關系、非空間關系)

達到的效果

理論證明了IterComp的有效性,實驗結果表明,與現有的SOTA方法(如Omost和FLUX)相比,IterComp在多類別對象組合和復雜語義對齊方面表現出明顯的優勢,顯著提高了組合性生成的效果。

動機

自2022年以來,基于diffusion的文生圖模型取得了快速的發展,尤其在復雜組合生成(complex/compositional generation)任務上取得了顯著進展。例如,今年8月發布的FLUX展現出了十分震撼的復雜場景生成能力與美學質量;RPG通過MLLM的輔助,將復雜的組合生成任務分解為簡單子任務;InstanceDiffusion通過布局控制(layout-based),實現了與布局分布高度一致的精確圖像生成。


然而,我們發現這些模型的優勢僅限于某些特定的組合生成任務,且存在諸多局限。基于文本(text-based)的生成方法(如SDXL、SD3、FLUX等)由于其訓練數據和框架的優勢,在物體與場景的模擬上表現出色,特別在美學質量、屬性綁定和非空間關系(non-spatial relationships)方面表現出色。然而,當涉及多個物體,且存在復雜的空間關系時,這類模型往往表現出明顯的不足。


基于大語言模型(LLM-based)的生成方法,如Omost和RPG,通常需要對LLM進行額外訓練或設計復雜的提示提示。然而,對于LLM處理后的復雜指令,diffusion backbone并不具備復雜指令下精確生成的能力。基于布局(layout-based)的生成方法,如Instancediffusion和LMD+,雖然提供了精確的控制,但在圖像的美學質量和真實性上存在明顯下降,并且需要人為設計布局。


因此,一個值得深入探討的問題是:我們能否設計出一個強大的模型,在上述多個方面都表現出色,同時不引入額外的復雜指令或增加計算開銷?

基于此,我們提出一個全新的文生圖框架:IterComp。

方法

本節介紹了方法IterComp,它從模型庫中收集組合感知的模型偏好,并利用迭代反饋學習來增強基礎擴散模型在組合生成中的綜合能力。下圖2展示了IterComp的概覽。首先介紹了從模型庫中收集組合感知模型偏好數據集的方法。再描述了組合感知獎勵模型的訓練過程及多獎勵反饋學習。然后提出了迭代反饋學習框架,以實現基礎擴散模型和獎勵模型的自我優化,逐步提升組合生成能力。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

收集組合性的人類偏好

組合性指標與模型庫
專注于組合性的三個關鍵方面:屬性綁定、空間關系和非空間關系,以收集組合感知的模型偏好。初步選擇了六個在不同組合生成方面表現突出的開源模型作為我們的模型庫:FLUX-dev、Stable Diffusion 3、SDXL、Stable Diffusion 1.5、RPG、InstanceDiffusion。

屬性綁定的人工排名
對于屬性綁定,我們從T2I-CompBench的顏色、形狀和紋理類別中隨機選擇了500個提示。三位專業專家對六個模型為每個提示生成的圖像進行了排名,并通過加權得出了最終結果。主要標準是生成的圖像是否準確反映了提示中提到的屬性,尤其是屬性是否正確綁定到相應的對象上。

復雜關系的人工排名
對于空間和非空間關系,從T2I-CompBench中為每個類別選擇了1,000個提示,并使用相同的人工注釋方法來獲得排名。對于空間關系,主要排名標準是對象是否被正確生成以及它們的空間位置是否與提示匹配。對于非空間關系,重點是對象是否展示了自然和逼真的動作。

組合感知模型偏好數據集分析

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

在下圖3中可視化了每個模型生成的圖像中排名第一的比例。結果表明,不同模型在組合生成的各個方面表現出不同的優勢,該數據集有效地捕捉了多樣的組合感知模型偏好。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

組合感知的多獎勵反饋學習

組合感知獎勵模型訓練
為了在組合生成中實現全面的提升,我們利用3.1節中描述的三類組合感知數據集,將組合性分解為三個子任務,并為每個子任務訓練一個特定的獎勵模型。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

多獎勵反饋學習
由于擴散模型中的多步去噪過程,無法為其生成結果提供概率,因此在語言模型中使用的RLHF方法不適用于擴散模型。一些現有的方法通過將獎勵模型的分數視為人類偏好損失,直接微調擴散模型。為了使用多個組合感知獎勵模型優化基礎擴散模型,我們設計了以下損失函數:

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

組合感知反饋學習的迭代優化

組合生成因其復雜性和多方面特征而難以優化,這需要我們的獎勵模型和基礎擴散模型在復雜文本理解以及復雜關系生成等方面表現出色。為了確保更徹底的優化,我們提出了一個迭代反饋學習框架,逐步優化獎勵模型和基礎擴散模型。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

迭代反饋學習的有效性
通過這個迭代反饋學習框架,獎勵模型在理解復雜的組合提示詞方面變得更加有效,并為基礎擴散模型的組合生成提供了更全面的指導。迭代反饋學習過程的優化目標在以下引理中形式化:

引理 1
迭代反饋學習的統一優化框架可以表述為:

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

優于 Diffusion-DPO 和 ImageReward
在此,我們闡明 IterComp 相較于 Diffusion-DPO 和 ImageReward 的一些優勢。首先,IterComp 專注于組合感知的獎勵,旨在優化文本到圖像 (T2I) 模型,使其能夠應對復雜的生成場景,并構建了一個強大的模型庫來收集多個組合感知的模型偏好。其次,我們創新的迭代反饋學習框架能夠有效實現基礎擴散模型和獎勵模型在多個迭代中的漸進自我優化。

實驗

實驗設置

數據集和訓練設置

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

基線模型
研究者們策劃了一個包含六個開源模型的模型庫,每個模型在組合生成的不同方面表現優異:FLUX、Stable Diffusion 3、SDXL、Stable Diffusion 1.5、RPG 和 InstanceDiffusion。為了確保基礎擴散模型能夠充分、全面地學習組合感知模型偏好,我們通過在每次迭代中引入新模型(如 Omost 、Stable Cascade 、PixArt-α)來逐步擴展模型庫。為了在組合生成性能上進行比較,我們選擇了幾種最先進的方法,包括 FLUX、SDXL 和 RPG 與我們的方法進行比較。我們使用 GPT-4o 進行 LLM 控制的方法,并根據提示推斷布局以實現布局控制的方法。

主要結果

定性比較
如下圖 4 所示,IterComp 在組合生成結果上優于三種主要類型的組合生成方法:文本控制、LLM 控制和布局控制的方法。與文本控制方法 FLUX相比,IterComp 在處理空間關系方面表現出色,顯著減少了諸如物體遺漏和數量及位置不準確等錯誤。與 LLM 控制方法 RPG 相比,IterComp 產生了更合理的物體放置,避免了 LLM 幻覺造成的不切實際的定位。與布局控制方法 InstanceDiffusion 相比,IterComp 在語義美學和組合性方面明顯占優勢,特別是在復雜提示下的生成表現更佳。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

定量比較
在 T2I-CompBench 上將 IterComp 與之前出色的組合文本/布局到圖像模型進行了比較,涵蓋六個關鍵組合場景。如表 2 所示,IterComp 在所有評估任務中表現出色。布局控制的方法,如 LMD+ 和 InstanceDiffusion ,在生成準確的空間關系方面表現優異,而文本到圖像模型,如 SDXL 和 GenTron,在屬性綁定和非空間關系上具有特別優勢。相比之下,IterComp 在組合生成方面實現了全面的改進。它通過收集組合感知模型偏好,整合了各種模型的優點,并采用了新穎的迭代反饋學習方法,以閉環的方式實現基礎擴散模型和獎勵模型的自我優化。IterComp 在提高生成圖像的真實感和美學的同時,實現了高水平的組合性。


如下表 3 所示,我們通過計算 CLIP 分數、美學分數和圖像獎勵來評估圖像真實感的提升。IterComp 在所有三個場景中顯著優于之前的模型,在與復雜文本提示對齊時展現出卓越的保真度和精確性。這些令人鼓舞的結果突顯了 IterComp 在組合性和保真度方面的多樣性。在附錄 A.3 中提供了 IterComp 與其他擴散對齊方法之間的更多定量比較結果。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

IterComp 生成高質量圖像所需的時間更少。在下表 4 中,將 IterComp 的推理時間與其他優秀模型(如 FLUX、RPG)生成單張圖像的時間進行了比較。使用相同的文本提示,并將去噪步數固定為 40,IterComp 顯示出更快的生成速度,因為它避免了 RPG 和 Omost 中復雜的注意力計算。我們的方法能夠在不增加任何計算開銷的情況下,整合來自不同模型的組合感知知識。這種效率凸顯了其在各種應用中的潛力,并為處理復雜生成任務提供了新的視角。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

用戶研究
我們進行了一個全面的用戶研究,以評估 IterComp 在組合生成中的有效性。如下圖 5 所示,我們隨機選擇了 16 個提示進行比較,并邀請了來自不同背景的 23 位用戶對圖像組合性進行投票,共獲得 1,840 票。結果顯示,IterComp 在組合生成方面獲得了廣泛的用戶認可。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

消融研究

模型庫大小的影響
在模型庫大小的消融研究中,如下圖 6 所示,我們觀察到增加模型庫的大小會提高 IterComp 在各項評估任務上的性能。為了利用這一發現并提供更細粒度的獎勵指導,我們通過逐步擴展模型庫,結合優化后的基礎擴散模型和新模型(如 Omost)來進行多次迭代。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

組合感知迭代反饋學習的影響
研究者們進行了消融研究(見下圖 7),以評估組合感知迭代反饋學習的影響。結果顯示,這種方法顯著提高了組合生成的準確性和生成圖像的美學質量。隨著迭代次數的增加,模型的偏好逐漸收斂。基于這一觀察,在 IterComp 中將迭代次數設置為 3。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

泛化研究

IterComp 可以作為各種組合生成任務的強大基礎,充分利用其在空間意識、復雜提示理解和更快推理方面的優勢。如下圖 8 所示,將 IterComp 集成到 Omost 和 RPG 中。結果表明,配備更強大 IterComp 骨干的 Omost 和 RPG 實現了出色的組合生成性能,突顯了 IterComp 的強泛化能力和更廣泛應用的潛力。

“左腳踩右腳”提升文生圖模型綜合能力!清北牛津普林斯頓聯合發布IterComp-AI.x社區

結論

本文提出了一種新穎的框架,IterComp,旨在解決復雜的組合文本到圖像生成的挑戰。IterComp 從模型庫中聚合組合感知模型偏好,并采用迭代反饋學習方法,逐步優化獎勵模型和基礎擴散模型,以實現多次迭代的精細化。未來的工作中,我們計劃通過引入更復雜的輸入條件以及將其擴展到更實用的應用中,進一步增強該框架的能力。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/f9S7qNym8dXA_YNPG0Y3Ag??

收藏
回復
舉報
回復
相關推薦
香蕉久久久久久久av网站| 国产精品av一区二区三区| 欧美激情在线免费| 久久久久伊人| 亚洲男人都懂第一日本| 精品999在线播放| 日本我和搜子同居的日子高清在线| 国产制服丝袜一区| 99在线免费观看视频| 欧美午夜网站| 精品爽片免费看久久| 一个人免费视频www在线观看| 久久99九九99精品| 91情侣在线视频| 私拍精品福利视频在线一区| 亚洲另类xxxx| 欧美精品videos另类| 亚洲乱码中文字幕综合| 日韩a级在线观看| 蜜臀精品久久久久久蜜臀| yy111111少妇影院日韩夜片| 天天躁日日躁狠狠躁欧美巨大小说| 亚洲色图50p| 久久五月精品中文字幕| 在线免费不卡电影| 色播视频在线观看| 亚洲欧美一区二区视频| www.欧美日本| 99久久精品免费看| 警花观音坐莲激情销魂小说| 久久免费黄色| 欧美国产一区二区在线| 亚洲国产婷婷| av成人在线电影| av在线不卡免费观看| 久久理论片午夜琪琪电影网| 免费一级欧美片在线观看网站| 中文字幕久精品免费视频| 黑森林国产精品av| 日韩欧美一区二区免费| 亚洲精品传媒| 欧美日韩在线播放| 亚洲乱亚洲乱妇| 欧美熟乱第一页| 天天综合视频在线观看| 欧美在线视频日韩| 最美情侣韩剧在线播放| 亚洲444eee在线观看| 在线色视频观看| 午夜日韩在线观看| 嫩草在线播放| 欧美精品久久99久久在免费线| 色网站免费在线观看| 91精品免费观看| 免费av不卡在线观看| 日韩精品视频观看| 欧美大片1688| 久热爱精品视频线路一| 日本亚洲视频| 国产成人精品视频在线观看| 中文字幕乱码亚洲无线精品一区 | 欧美日韩一区三区四区| 岛国最新视频免费在线观看| 欧美久久久久免费| 女海盗2成人h版中文字幕| 亚洲香蕉av在线一区二区三区| 欧美精品总汇| 7777kkkk成人观看| 国产精品久久久久久影院8一贰佰| 99久久精品免费看国产一区二区三区 | 日韩av有码在线| jizz久久久久久| 久99九色视频在线观看| 亚洲精品播放| 精品一区日韩成人| 国产成人免费视频网站| 日韩不卡一二三| 亚洲成a人v欧美综合天堂 | 91福利电影| 色婷婷久久久亚洲一区二区三区| jizz性欧美10| 久久精品视频在线播放| 亚洲人挤奶视频| 精品国产一区二区三区日日嗨| 激情偷乱视频一区二区三区| 制服丝袜综合网| 欧美日韩一级二级| 欧美成a人片免费观看久久五月天| 国产精品99一区| 久久国产精品免费| 成人综合网址| 精品国产电影一区二区| 视频一区日韩精品| 国产精品三区四区| 2017欧美狠狠色| 九义人在线观看完整免费版电视剧| 久久亚洲综合国产精品99麻豆精品福利| heyzo久久| 国风产精品一区二区| 亚洲一区在线观看视频| 男女羞羞在线观看| 91精品视频在线播放| 不卡的av在线| 国产青青草在线| 51午夜精品视频| 国产酒店精品激情| 国产高清在线看| 韩国v欧美v日本v亚洲| 久久蜜桃精品| 2018高清国产日本一道国产| 亚洲激情视频在线观看| 色琪琪久久se色| 男人天堂网视频| 精品国产一区二区在线观看| 91日韩免费| 五月天av在线播放| 国产亚洲精品美女| 日韩视频免费| 最近2018年手机中文在线| 久久精品久久精品亚洲人| 日韩中文字幕av电影| 欧美色视频免费| 97国产在线视频| 国产成人无遮挡在线视频| 黄网在线免费| 午夜精品福利在线观看| 国产专区欧美精品| 欧美极品另类| 99电影在线观看| 国产欧美日韩激情| 亚洲四虎影院| 免费观看黄色大片| 日韩一级精品视频在线观看| 欧美午夜免费影院| 性欧美孕妇孕交| 国产精品91久久久| 中文字幕一区二区三区色视频| 高清久久一区| 丰满人妻中伦妇伦精品app| 亚洲香蕉成视频在线观看| 久久一二三区| 日本三级视频在线观看| 成人激情在线播放| 夜夜嗨av一区二区三区| 精品国内亚洲2022精品成人| 国产黄色特级片| 欧美不卡视频一区发布| av毛片久久久久**hd| 看片一区二区| 欧美日韩在线中文| 精品国产一区二区三区久久狼5月| 麻豆精品在线视频| av免费不卡国产观看| 日韩久久久久久久久久久久久| 欧美日韩在线三区| 在线日韩av| 国产区在线观看| 亚洲精品一卡二卡三卡四卡| 亚洲成人精品久久久| 久久精品国内一区二区三区| 美女高潮在线观看| 欧美视频免费看欧美视频| 色婷婷综合久久久久| 91麻豆高清视频| 午夜精品久久17c| 美女爽到高潮91| 国产ktv在线视频| 亚洲精蜜桃久在线| 亚洲人成绝费网站色www| 风流少妇一区二区| 高清在线一区二区| 艹b视频在线观看| 国产999在线观看| 色婷婷av一区二区三区之一色屋| 欧美三级第一页| 超碰人人在线| 国产内射老熟女aaaa| 久久影视电视剧免费网站清宫辞电视| 国产亚洲福利社区一区| 999在线精品| 羞羞视频网站在线观看| 日韩欧美视频一区二区三区四区| 日韩av在线免费| 久久久久久影视| 波多野结衣在线播放一区| 岛国在线大片| 亚洲av首页在线| 91精品国产色综合久久不卡98口 | 男同在线观看| 久久国产精品 国产精品| 亚洲福利视频二区| 成人av综合在线| 国产一区二区三区四区| 国产大片在线免费观看| 亚洲欧洲精品一区二区| 久久艳片www.17c.com| 精品久久香蕉国产线看观看亚洲 | 午夜视频你懂的| 国产日本欧美一区二区三区在线 | 都市激情国产精品|