布局控制+身份一致:浙大提出ContextGen,實現(xiàn)布局錨定多實例生成新SOTA
隨著擴(kuò)散模型(Diffusion Models)的迭代演進(jìn),圖像生成已經(jīng)日臻成熟。然而,在 多實例圖像生成(Multi-Instance Image Generation, MIG) 這一有著大量用戶場景的關(guān)鍵領(lǐng)域,現(xiàn)有的方法仍面臨核心瓶頸:如何同時實現(xiàn)對多個對象的空間布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation)。
主流方法往往無法做到兩全其美:依賴文本和布局引導(dǎo)(Layout-to-Image)的模型往往難以實現(xiàn)高度的實例定制化,且實例遺漏、屬性泄露的問題時有發(fā)生;而主流的主體驅(qū)動(Subject-driven)方法在主體數(shù)量增加時,面臨著嚴(yán)重的身份混淆和細(xì)節(jié)丟失的問題。

ContextGen 與主流 SOTA 的對比示例,以及 ContextGen 的使用例
為解決這一制約高度定制化圖像生成的難題,浙江大學(xué) ReLER 團(tuán)隊發(fā)布 ContextGen,一個新型的基于 Diffusion Transformer (DiT) 的框架,旨在通過上下文學(xué)習(xí),可靠地完成圖像引導(dǎo)的多實例生成任務(wù)!

- 論文地址:https://arxiv.org/abs/2510.11000
- 項目地址:https://nenhang.github.io/ContextGen
- 開源代碼:https://github.com/nenhang/ContextGen
- 開源模型:https://huggingface.co/ruihangxu/ContextGen
ContextGen 提出了全新的上下文生成范式,通過整合布局圖像和多張參考圖像,將布局控制與身份保持的挑戰(zhàn)轉(zhuǎn)化為統(tǒng)一的上下文建模問題。
雙核驅(qū)動:實現(xiàn)布局與身份的雙重保真
ContextGen 的雙重核心機(jī)制,共同作用于統(tǒng)一的上下文 Token 序列上:

ContextGen 框架結(jié)構(gòu)概覽
上下文布局錨定(Contextual Layout Anchoring, CLA)
CLA 機(jī)制聚焦于全局上下文的引導(dǎo),接受用戶設(shè)計(或者模型自動拼合)的布局圖像作為輸入,以提供精確的全局布局控制和初步的身份信息。它通過在 DiT 模塊的前置層和后置層部署自注意力機(jī)制,確保文本、待生成圖像和布局圖像三者進(jìn)行充分注意力交互,對整體圖像結(jié)構(gòu)進(jìn)行有效控制。
身份一致性注意力(Identity Consistency Attention, ICA)
ICA 機(jī)制聚焦細(xì)粒度的身份注入,利用原始高保真度的參考圖像,將身份信息注入到其對應(yīng)的目標(biāo)位置,從而保障多個實例的身份一致性。它被部署到 DiT 模塊的中間層,通過一個隔離式的注意力掩碼,將參考圖像的 Token 與對應(yīng)待去噪?yún)^(qū)域的 Token 建立連接,旨在緩解重疊或者壓縮導(dǎo)致的細(xì)節(jié)丟失問題,并在圖像序列增長時保證身份信息的穩(wěn)定注入。
這種的層次化的雙重注意力策略,有效地讓框架兼具了宏觀的布局控制和精細(xì)的實例級身份保持。此外,ContextGen 還采用了增強(qiáng)的位置索引策略,系統(tǒng)性地區(qū)分和組織統(tǒng)一 Token 序列中多圖像之間的關(guān)系。
數(shù)據(jù)基石:大規(guī)模詳細(xì)標(biāo)注的多實例數(shù)據(jù)集
針對當(dāng)前領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺的現(xiàn)狀,團(tuán)隊同時推出了 IMIG-100K 數(shù)據(jù)集。這是首個為圖像引導(dǎo)的多實例生成任務(wù)設(shè)計的大規(guī)模、具備不同難度層級、提供詳細(xì)布局和身份標(biāo)注的合成數(shù)據(jù)集,其構(gòu)建流程代碼也已經(jīng)開源,支持用戶根據(jù)自身需求生成定制化數(shù)據(jù)集。

IMIG-100K 數(shù)據(jù)集概覽

IMIG-100K 的布局、身份標(biāo)注
性能優(yōu)化:DPO 強(qiáng)化學(xué)習(xí)解放創(chuàng)造力
團(tuán)隊在訓(xùn)練過程中發(fā)現(xiàn),僅僅使用監(jiān)督微調(diào)容易使得模型過度參考布局圖像,導(dǎo)致生成的圖像缺乏多樣性和靈活性。為此,在監(jiān)督微調(diào)之外,ContextGen 還引入了基于偏好優(yōu)化(DPO) 的強(qiáng)化學(xué)習(xí)階段。該階段將布局圖像作為非偏好輸入,鼓勵模型不僵硬復(fù)制布局內(nèi)容,生成更具創(chuàng)意和多樣性的圖像。

DPO 微調(diào)過程示例
實驗驗證:對標(biāo)閉源模型,樹立性能標(biāo)桿
在廣泛的定量和定性評估中,ContextGen 展現(xiàn)出卓越的 SOTA 性能。
身份保持:比肩閉源巨頭
在 LAMICBench++ 基準(zhǔn)測試中,ContextGen 不僅超越了所有開源模型(平均得分提升 +1.3%),更在身份一致性上比肩了一些閉源的商業(yè)巨頭,在多實例的復(fù)雜場景中,ContextGen 在人物身份保持 (IDS) 和物體特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一較高下。

LAMICBench++ 基準(zhǔn)的定量對比

LAMICBench++ 基準(zhǔn)的定性對比1

LAMICBench++ 基準(zhǔn)的定性對比2
布局與屬性控制:準(zhǔn)確率大幅提升
在 COCO-MIG 上,ContextGen 在實例級成功率 (I-SR) 上提升 +3.3%,空間準(zhǔn)確性 (mIoU) 提升 +5.9%。 在 LayoutSAM-Eval 中,ContextGen 在顏色、材質(zhì)等屬性的正確率上也超過了現(xiàn)有的模型。

COCO-MIG 和 LayoutSAM-Eval 基準(zhǔn)的定量比較

COCO-MIG 基準(zhǔn)的定性比較

LayoutSam-Eval 基準(zhǔn)的定性比較
這些結(jié)果充分證明了 ContextGen 在多實例圖像生成任務(wù)中的強(qiáng)大能力,成功實現(xiàn)了對布局和身份的雙重精確控制。
前端支持:便捷的用戶交互
為了方便用戶體驗,在項目中團(tuán)隊增加了一個簡單易用的前端界面,支持用戶上傳參考圖像、以文本的形式添加新素材、通過拖拽方便地設(shè)計布局,生成多實例圖像。

ContextGen 前端交互界面
展望與未來
ContextGen 通過帶有雙重注意力的上下文機(jī)制,為高度可控的多實例生成提供了一個強(qiáng)大且可行的 DiT 框架。ReLER 團(tuán)隊進(jìn)一步提出,如何更智能地理解用戶的文本意圖與多模態(tài)參考,仍然是一個值得深入探索的課題。未來,團(tuán)隊計劃進(jìn)一步優(yōu)化模型架構(gòu),提升生成效率,并探索更多樣化的用戶交互方式,以滿足更廣泛的應(yīng)用需求。




































