端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等

論文鏈接:https://arxiv.org/pdf/2511.19365
項目鏈接:https://zehong-ma.github.io/DeCo/
代碼鏈接:https://github.com/Zehong-Ma/DeCo

亮點直擊
- DeCo解耦框架:DiT專注低頻語義建模(采用下采樣輸入);輕量級像素解碼器重建高頻信號。
- 創新頻率感知損失函數:通過DCT轉換至頻域;基于JPEG量化表分配自適應權重;強化視覺顯著頻率,抑制高頻噪聲。
- DeCo在像素擴散模型中取得領先性能:ImageNet上FID得分1.62(256×256)和2.22(512×512),縮小了與兩階段潛在擴散方法的差距。本文預訓練的文本到圖像模型在系統級評估中同樣在GenEval(0.86)和DPG-Bench(81.4)上獲得SOTA結果。
- 通過架構級解耦實現專業化分工,為像素擴散模型提供了新的設計范式,同時保持端到端訓練的優勢。
總結速覽
解決的問題
- 核心矛盾:像素擴散模型需要在一個單一的擴散Transformer中同時建模高頻信號(細節、噪聲)和低頻語義(結構、內容),導致模型負擔過重、效率低下且生成質量受損。
- 具體弊端:
- 高頻噪聲會干擾DiT對低頻語義的學習。
- 單一模型難以在巨大像素空間中兼顧兩種不同特性的任務。
- 傳統方法導致訓練和推理速度慢,輸出圖像存在噪聲且質量下降。
提出的方案
- 核心框架:提出名為DeCo的頻率解耦像素擴散框架。
- 核心思想:將高低頻組分的生成進行解耦,讓不同組件各司其職。
- 具體措施:
1.讓DiT專注于低頻語義建模,使用下采樣輸入。
2.引入一個輕量級像素解碼器,在DiT提供的語義引導下,專門負責重建高頻信號。
3.提出一種頻率感知流匹配損失函數,以優化訓練。
應用的技術
- 架構解耦:采用DiT作為語義主干,配合輕量級像素解碼器的雙路徑架構。
- 頻率感知損失:利用離散余弦變換將信號轉換到頻域,并基于JPEG量化表先驗為不同頻率分量分配自適應權重,以強調視覺顯著頻率、抑制高頻噪聲。
- 端到端訓練:保持像素擴散端到端訓練的優勢,同時通過解耦設計提升效率。
達到的效果
- 性能領先:在ImageNet上取得了像素擴散模型中卓越的性能,FID達到1.62(256×256)和2.22(512×512),顯著縮小了與主流潛在擴散方法的差距。
- 全面優異:預訓練的文本到圖像模型在系統級評估中,于GenEval(0.86)和DPG-Bench(81.4)上獲得領先成績。
- 質量提升:通過解耦設計和頻率感知損失,有效提升了視覺保真度,并緩解了高頻噪聲的干擾。
- 驗證有效:實驗結果驗證了在像素擴散中解耦高低頻組分建模這一思路的有效性。
方法
概述
本節首先回顧基線像素擴散中的條件流匹配,隨后介紹本文提出的頻率解耦像素擴散框架。

DeCo框架。 為實現高頻生成與低頻語義建模的分離,本文提出頻率解耦框架DeCo。如下圖3所示:



像素解碼器




其中 MLP 包含兩個帶有 SiLU的線性層。

頻率感知 FM 損失
為進一步促使像素解碼器聚焦于感知重要的頻率并抑制無關噪聲,本文引入了頻率感知流匹配損失。
空間-頻率變換。 本文首先將預測的和真實的像素速度從空間域轉換到頻域。具體流程為:將色彩空間轉換為 YCbCr 后,按照 JPEG標準執行分塊 8×8 離散余弦變換。將該變換記為T ,則有:



實證分析
為驗證DeCo有效實現頻率解耦,本文分析了DiT輸出與像素速度的DCT能量譜(下圖4)。

相較于基線方法,本文的像素解碼器成功保持了像素速度中的所有頻率分量。同時,DeCo中DiT輸出的高頻能量顯著低于基線,表明高頻組分已從DiT轉移至像素解碼器。這些觀測證實DeCo實現了有效的頻率解耦。上表4(c)(d)的結果進一步表明,這一成功解耦得益于兩項關鍵架構設計:
多尺度輸入策略。 多尺度輸入策略至關重要:通過該策略,像素解碼器可在高分辨率原始輸入上輕松建模高頻信號,同時使DiT能夠從高頻信號已被部分抑制的低分辨率輸入中專注建模低頻語義。值得注意的是,本方案DiT采用16×16的補丁尺寸,顯著大于PixelFlow[6]的4×4補丁,使其更適用于語義捕獲而非細節重建。
基于AdaLN的交互機制。 自適應層歸一化為DiT與像素解碼器提供了強大的交互機制。在本框架中,DiT的作用類似于傳統文生圖模型中的文本編碼器,提供穩定的低頻語義條件。AdaLN層隨后以DiT輸出為條件,對像素解碼器中的稠密查詢特征進行調制。實驗證實,該調制機制在融合低頻語義與高頻信號方面,比UNet等采用上采樣疊加低頻特征的簡單方法更為有效。
實驗
本文在ImageNet 256×256數據集上進行了消融實驗與基線對比。針對類別到圖像生成任務,本文在ImageNet 256×256和512×512分辨率上提供詳細對比,并報告FID、sFID、IS、精確度與召回率;針對文本到圖像生成任務,本文報告在GenEval和DPG-Bench上的結果。
基線對比
實驗設置。 基線對比中所有擴散模型均在ImageNet 256×256分辨率下訓練20萬步,采用大型DiT變體。相較于基線的核心架構改進是將最后兩個DiT塊替換為本文提出的像素解碼器。推理階段使用50步歐拉采樣且不采用無分類器引導。本文對比了需要VAE的兩階段DiT-L/2,以及PixelFlow、PixNerd等近期像素擴散模型,同時將DDT適配為像素擴散基線PixDDT,并集成JiT到本文的基線中(結合REPA)以進行公平對比。


JiT指出高維噪聲會干擾有限容量模型對低維數據的學習,通過預測干凈圖像并將生成過程錨定在低維數據流形,成功將FID從61.10降至39.06(上表1)。本文的DeCo具有相似動機——防止含高維噪聲的高頻信號干擾DiT學習低頻語義的能力,但提出了架構層面的解決方案:引入輕量級像素解碼器專注建模高頻信號,解放DiT學習低頻語義。DeCo還能緩解干凈圖像中高頻噪聲(如相機噪聲)的負面影響,因此實現了優于JiT的FID(31.35對39.06)。
類別到圖像生成
實驗設置。 在ImageNet上的類別到圖像生成實驗中,本文首先在256×256分辨率下訓練320輪,隨后在512×512分辨率下微調20輪。推理階段使用100步歐拉采樣配合CFG [18]與引導間隔[29],在單張A800 GPU上測量推理延遲。
主要結果。 本文的DeCo在ImageNet 256×256和512×512上分別達到領先的FID 1.62和2.22。在256×256分辨率下,DeCo展現出卓越的推理效率:僅需1.05秒即可生成圖像(100推理步),而RDM需38.4秒、PixelFlow需9.78秒。訓練效率方面(表1),單次迭代僅需0.24秒,遠低于PixelFlow的1.61秒。在相同320輪訓練后,本模型FID(1.90)顯著低于基線的2.79,并超越近期PixelFlow與PixNerd。如下圖5所示,DeCo僅用80輪(40萬步)即達到FID 2.57,超越基線800輪的表現,實現10倍訓練效率提升。經過800輪訓練后,DeCo在像素擴散模型中以250采樣步數達到最優FID 1.62,甚至可與兩階段潛在擴散模型媲美。使用相同heun采樣器與50步推理在600輪時,DeCo達到FID 1.69,以更少參數量和FLOPs超越JiT的FID 1.86。在512×512分辨率下,DeCo顯著優于現有基于像素的擴散方法,創下領先的FID 2.22。此外,按照PixNerd方法將ImageNet 256×256模型在320輪后微調20輪,本文的FID和IS可與DiT-XL/2及SiT-XL/2經過600輪訓練后的結果相媲美。


文本到圖像生成
實驗設置。 針對文本到圖像生成任務,本文在BLIP3o [5]數據集上訓練模型(包含約3600萬預訓練圖像和6萬高質量指令微調數據),采用Qwen3-1.7B [65]作為文本編碼器。完整訓練在8×H800 GPU上耗時約6天。
主要結果。 相較于兩階段潛在擴散方法,本文的DeCo在GenEval基準測試中獲得0.86的綜合評分,超越SD3 、FLUX.1-dev 等知名文生圖模型以及BLIP3o、OmniGen2等統一模型。值得注意的是,盡管使用與BLIP3o相同的訓練數據,本模型仍實現更優性能。在DPG-Bench上,DeCo取得與兩階段潛在擴散方法相當的競爭力平均分。相比其他端到端像素擴散方法,DeCo較PixelFlow和PixNerd具有顯著性能優勢。這些結果表明,通過DeCo實現的端到端像素擴散能以有限訓練/推理成本達到與兩階段方法相媲美的性能。文生圖DeCo的生成效果可視化見上圖1。
進一步消融實驗
本節針對像素解碼器設計、DiT與像素解碼器交互機制、頻率感知FM損失超參數進行消融研究,所有實驗均遵循前文設置。
像素解碼器隱藏維度。 如上表4(a)所示,當隱藏維度d=32時DeCo性能最優:過小維度限制模型能力,更大維度未帶來增益。故默認采用隱藏維度32。
像素解碼器深度。 上表4(b)顯示3層解碼器效果最佳:單層能力不足,6層可能引發優化困難。采用32隱藏維與3層結構時,本文的無注意力解碼器僅含850萬參數,能高效處理高分辨率輸入。
像素解碼器補丁尺寸。 上表4(c)表明當解碼器補丁尺寸為1(直接處理全分辨率輸入)時性能最優。對解碼器輸入進行補丁化會降低效果,當采用與DiT相同的16大補丁時性能最差,這驗證了多尺度輸入策略的有效性。所有對比實驗均保持相近參數量與計算成本。
DiT與像素解碼器交互機制。 上表4(d)顯示,采用UNet [46]式的簡單上采樣疊加方案效果遜于基于AdaLN的交互。AdaLN [43]以DiT輸出作為語義條件指導速度預測,提供了更有效的交互機制。

結論
DeCo——一種面向像素擴散的頻率解耦創新框架。通過使用DiT建模低頻語義、輕量級像素解碼器建模高頻信號,DeCo顯著提升了生成質量與效率。提出的頻率感知FM損失通過優先處理感知重要頻率進一步優化視覺質量。DeCo在類別到圖像與文本到圖像生成基準測試中均達到像素擴散領先性能,縮小了與兩階段潛在擴散方法的差距。
本文轉自AI生成未來 ,作者:AI生成未來

















