国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等

發布于 2025-11-26 09:09
瀏覽
0收藏

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

論文鏈接:https://arxiv.org/pdf/2511.19365 

項目鏈接:https://zehong-ma.github.io/DeCo/

代碼鏈接:https://github.com/Zehong-Ma/DeCo 

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

亮點直擊

  • DeCo解耦框架:DiT專注低頻語義建模(采用下采樣輸入);輕量級像素解碼器重建高頻信號。
  • 創新頻率感知損失函數:通過DCT轉換至頻域;基于JPEG量化表分配自適應權重;強化視覺顯著頻率,抑制高頻噪聲。
  • DeCo在像素擴散模型中取得領先性能:ImageNet上FID得分1.62(256×256)和2.22(512×512),縮小了與兩階段潛在擴散方法的差距。本文預訓練的文本到圖像模型在系統級評估中同樣在GenEval(0.86)和DPG-Bench(81.4)上獲得SOTA結果
  • 通過架構級解耦實現專業化分工,為像素擴散模型提供了新的設計范式,同時保持端到端訓練的優勢。

總結速覽

解決的問題

  • 核心矛盾:像素擴散模型需要在一個單一的擴散Transformer中同時建模高頻信號(細節、噪聲)和低頻語義(結構、內容),導致模型負擔過重、效率低下且生成質量受損。
  • 具體弊端
  • 高頻噪聲會干擾DiT對低頻語義的學習。
  • 單一模型難以在巨大像素空間中兼顧兩種不同特性的任務。
  • 傳統方法導致訓練和推理速度慢,輸出圖像存在噪聲且質量下降。

提出的方案

  • 核心框架:提出名為DeCo的頻率解耦像素擴散框架。
  • 核心思想:將高低頻組分的生成進行解耦,讓不同組件各司其職。
  • 具體措施

1.讓DiT專注于低頻語義建模,使用下采樣輸入。

2.引入一個輕量級像素解碼器,在DiT提供的語義引導下,專門負責重建高頻信號

3.提出一種頻率感知流匹配損失函數,以優化訓練。

應用的技術

  • 架構解耦:采用DiT作為語義主干,配合輕量級像素解碼器的雙路徑架構。
  • 頻率感知損失:利用離散余弦變換將信號轉換到頻域,并基于JPEG量化表先驗為不同頻率分量分配自適應權重,以強調視覺顯著頻率、抑制高頻噪聲。
  • 端到端訓練:保持像素擴散端到端訓練的優勢,同時通過解耦設計提升效率。

達到的效果

  • 性能領先:在ImageNet上取得了像素擴散模型中卓越的性能,FID達到1.62(256×256)和2.22(512×512),顯著縮小了與主流潛在擴散方法的差距
  • 全面優異:預訓練的文本到圖像模型在系統級評估中,于GenEval(0.86)和DPG-Bench(81.4)上獲得領先成績
  • 質量提升:通過解耦設計和頻率感知損失,有效提升了視覺保真度,并緩解了高頻噪聲的干擾。
  • 驗證有效:實驗結果驗證了在像素擴散中解耦高低頻組分建模這一思路的有效性。

方法

概述

本節首先回顧基線像素擴散中的條件流匹配,隨后介紹本文提出的頻率解耦像素擴散框架。

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

DeCo框架。 為實現高頻生成與低頻語義建模的分離,本文提出頻率解耦框架DeCo。如下圖3所示:

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

像素解碼器

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

其中 MLP 包含兩個帶有 SiLU的線性層。

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

頻率感知 FM 損失

為進一步促使像素解碼器聚焦于感知重要的頻率并抑制無關噪聲,本文引入了頻率感知流匹配損失。


空間-頻率變換。 本文首先將預測的和真實的像素速度從空間域轉換到頻域。具體流程為:將色彩空間轉換為 YCbCr 后,按照 JPEG標準執行分塊 8×8 離散余弦變換。將該變換記為T ,則有:

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

實證分析

為驗證DeCo有效實現頻率解耦,本文分析了DiT輸出與像素速度的DCT能量譜(下圖4)。

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

相較于基線方法,本文的像素解碼器成功保持了像素速度中的所有頻率分量。同時,DeCo中DiT輸出的高頻能量顯著低于基線,表明高頻組分已從DiT轉移至像素解碼器。這些觀測證實DeCo實現了有效的頻率解耦。上表4(c)(d)的結果進一步表明,這一成功解耦得益于兩項關鍵架構設計:


多尺度輸入策略。 多尺度輸入策略至關重要:通過該策略,像素解碼器可在高分辨率原始輸入上輕松建模高頻信號,同時使DiT能夠從高頻信號已被部分抑制的低分辨率輸入中專注建模低頻語義。值得注意的是,本方案DiT采用16×16的補丁尺寸,顯著大于PixelFlow[6]的4×4補丁,使其更適用于語義捕獲而非細節重建。


基于AdaLN的交互機制。 自適應層歸一化為DiT與像素解碼器提供了強大的交互機制。在本框架中,DiT的作用類似于傳統文生圖模型中的文本編碼器,提供穩定的低頻語義條件。AdaLN層隨后以DiT輸出為條件,對像素解碼器中的稠密查詢特征進行調制。實驗證實,該調制機制在融合低頻語義與高頻信號方面,比UNet等采用上采樣疊加低頻特征的簡單方法更為有效。

實驗

本文在ImageNet 256×256數據集上進行了消融實驗與基線對比。針對類別到圖像生成任務,本文在ImageNet 256×256和512×512分辨率上提供詳細對比,并報告FID、sFID、IS、精確度與召回率;針對文本到圖像生成任務,本文報告在GenEval和DPG-Bench上的結果。

基線對比

實驗設置。 基線對比中所有擴散模型均在ImageNet 256×256分辨率下訓練20萬步,采用大型DiT變體。相較于基線的核心架構改進是將最后兩個DiT塊替換為本文提出的像素解碼器。推理階段使用50步歐拉采樣且不采用無分類器引導。本文對比了需要VAE的兩階段DiT-L/2,以及PixelFlow、PixNerd等近期像素擴散模型,同時將DDT適配為像素擴散基線PixDDT,并集成JiT到本文的基線中(結合REPA)以進行公平對比。

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

JiT指出高維噪聲會干擾有限容量模型對低維數據的學習,通過預測干凈圖像并將生成過程錨定在低維數據流形,成功將FID從61.10降至39.06(上表1)。本文的DeCo具有相似動機——防止含高維噪聲的高頻信號干擾DiT學習低頻語義的能力,但提出了架構層面的解決方案:引入輕量級像素解碼器專注建模高頻信號,解放DiT學習低頻語義。DeCo還能緩解干凈圖像中高頻噪聲(如相機噪聲)的負面影響,因此實現了優于JiT的FID(31.35對39.06)。

類別到圖像生成

實驗設置。 在ImageNet上的類別到圖像生成實驗中,本文首先在256×256分辨率下訓練320輪,隨后在512×512分辨率下微調20輪。推理階段使用100步歐拉采樣配合CFG [18]與引導間隔[29],在單張A800 GPU上測量推理延遲。


主要結果。 本文的DeCo在ImageNet 256×256和512×512上分別達到領先的FID 1.62和2.22。在256×256分辨率下,DeCo展現出卓越的推理效率:僅需1.05秒即可生成圖像(100推理步),而RDM需38.4秒、PixelFlow需9.78秒。訓練效率方面(表1),單次迭代僅需0.24秒,遠低于PixelFlow的1.61秒。在相同320輪訓練后,本模型FID(1.90)顯著低于基線的2.79,并超越近期PixelFlow與PixNerd。如下圖5所示,DeCo僅用80輪(40萬步)即達到FID 2.57,超越基線800輪的表現,實現10倍訓練效率提升。經過800輪訓練后,DeCo在像素擴散模型中以250采樣步數達到最優FID 1.62,甚至可與兩階段潛在擴散模型媲美。使用相同heun采樣器與50步推理在600輪時,DeCo達到FID 1.69,以更少參數量和FLOPs超越JiT的FID 1.86。在512×512分辨率下,DeCo顯著優于現有基于像素的擴散方法,創下領先的FID 2.22。此外,按照PixNerd方法將ImageNet 256×256模型在320輪后微調20輪,本文的FID和IS可與DiT-XL/2及SiT-XL/2經過600輪訓練后的結果相媲美。

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

文本到圖像生成

實驗設置。 針對文本到圖像生成任務,本文在BLIP3o [5]數據集上訓練模型(包含約3600萬預訓練圖像和6萬高質量指令微調數據),采用Qwen3-1.7B [65]作為文本編碼器。完整訓練在8×H800 GPU上耗時約6天。


主要結果。 相較于兩階段潛在擴散方法,本文的DeCo在GenEval基準測試中獲得0.86的綜合評分,超越SD3 、FLUX.1-dev 等知名文生圖模型以及BLIP3o、OmniGen2等統一模型。值得注意的是,盡管使用與BLIP3o相同的訓練數據,本模型仍實現更優性能。在DPG-Bench上,DeCo取得與兩階段潛在擴散方法相當的競爭力平均分。相比其他端到端像素擴散方法,DeCo較PixelFlow和PixNerd具有顯著性能優勢。這些結果表明,通過DeCo實現的端到端像素擴散能以有限訓練/推理成本達到與兩階段方法相媲美的性能。文生圖DeCo的生成效果可視化見上圖1。

進一步消融實驗

本節針對像素解碼器設計、DiT與像素解碼器交互機制、頻率感知FM損失超參數進行消融研究,所有實驗均遵循前文設置。


像素解碼器隱藏維度。 如上表4(a)所示,當隱藏維度d=32時DeCo性能最優:過小維度限制模型能力,更大維度未帶來增益。故默認采用隱藏維度32。


像素解碼器深度。 上表4(b)顯示3層解碼器效果最佳:單層能力不足,6層可能引發優化困難。采用32隱藏維與3層結構時,本文的無注意力解碼器僅含850萬參數,能高效處理高分辨率輸入。


像素解碼器補丁尺寸。 上表4(c)表明當解碼器補丁尺寸為1(直接處理全分辨率輸入)時性能最優。對解碼器輸入進行補丁化會降低效果,當采用與DiT相同的16大補丁時性能最差,這驗證了多尺度輸入策略的有效性。所有對比實驗均保持相近參數量與計算成本。


DiT與像素解碼器交互機制。 上表4(d)顯示,采用UNet [46]式的簡單上采樣疊加方案效果遜于基于AdaLN的交互。AdaLN [43]以DiT輸出作為語義條件指導速度預測,提供了更有效的交互機制。

端到端像素擴散天降外掛!北大&華為等開源DeCo:生圖質量超越SD3、OmniGen2等-AI.x社區

結論

DeCo——一種面向像素擴散的頻率解耦創新框架。通過使用DiT建模低頻語義、輕量級像素解碼器建模高頻信號,DeCo顯著提升了生成質量與效率。提出的頻率感知FM損失通過優先處理感知重要頻率進一步優化視覺質量。DeCo在類別到圖像與文本到圖像生成基準測試中均達到像素擴散領先性能,縮小了與兩階段潛在擴散方法的差距。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/lod4SDLQcbHn6J_KeOw97Q??

收藏
回復
舉報
回復
相關推薦
日韩中文第一页| 日韩video| 精品无人乱码一区二区三区| 国产精品国产三级国产专播品爱网| 91av免费看| 国产精品一区免费在线| 欧美精选在线播放| 在线观看免费黄网站| 亚洲福利专区| 欧美一区二区三区免费观看| 国产自产自拍视频在线观看| 色综合欧美在线| 无限资源日本好片| 国产呦萝稀缺另类资源| 国产成人精品一区二区三区福利| 日韩中文在线| 亚洲精品ady| 久久精品蜜桃| 亚洲欧洲成人精品av97| 午夜啪啪免费视频| 午夜精品久久99蜜桃的功能介绍| 欧美另类极品videosbestfree| 51精品视频| 欧美写真视频网站| 导航福利在线| 中文av字幕一区| 国产二区视频在线| 六月丁香婷婷久久| 久久九九视频| 欧美日韩99| 成人黄色中文字幕| 亚洲福利网站| 高清亚洲成在人网站天堂| 美女福利一区二区| 亚洲国产精品字幕| 黄色影院在线看| 欧美一区二区美女| 国产区视频在线播放| 欧美日韩国产中文字幕| 黄色网址三级| 中文字幕在线免费不卡| 午夜视频在线瓜伦| 国产亚洲婷婷免费| 天天影视综合色| 久久久精品人体av艺术| 国产a级一级片| 99久久精品99国产精品| 欧美视频免费看欧美视频| 国产成人午夜精品影院观看视频| 黄色录像特级片| 高清不卡在线观看av| 国产69精品久久久久999小说| 国产a久久麻豆| mm131午夜| 成人免费黄色大片| 免费黄色福利视频| 国产日韩亚洲欧美综合| 国产高清视频网站| 亚洲综合视频网| 日本私人网站在线观看| 色欧美88888久久久久久影院| 精品推荐蜜桃传媒| 欧美日韩成人一区二区| a毛片在线观看| 国产手机视频精品| 精品福利在线| 色综合色综合久久综合频道88| 国产一区二区三区亚洲| 国产精品高潮呻吟久久av黑人| 久久91精品| 99re在线| 精品一区二区三区视频| 成人免费aaa| 亚洲人成影院在线观看| 在线观看av中文| 欧美一区二区精品在线| 久久久人成影片一区二区三区在哪下载| 日韩在线中文视频| 狠狠色丁香婷婷综合影院| 国产精品xxxx| 国产成人福利片| 日本1区2区| 91精品国产综合久久小美女| 成人免费毛片嘿嘿连载视频…| 久久男人av资源网站| 欧美激情亚洲| 中文字幕欧美日韩一区二区| 国产欧美综合在线观看第十页| 国产在线制服美女| 亚洲成人精品av| 凹凸av导航大全精品| 91精品视频在线看| 麻豆精品在线视频| 不卡av免费在线| 在线亚洲+欧美+日本专区| 天堂av在线| 国产精品va在线播放| 日韩成人dvd| 又黄又爽又色视频| 欧美老肥妇做.爰bbww| 欧美中文字幕精在线不卡| 日本不卡视频在线播放| 日本不卡视频在线观看| 蜜桃传媒九九九| 日韩一区二区三区av| 91麻豆精品激情在线观看最新 | 久久综合九色综合久| 亚洲色图25p| 97精品中文字幕| 丝袜人妻一区二区三区| 色老头久久综合| 亚洲一区二区免费在线观看| 精品乱码一区| 亚洲日本在线a| 亚洲最新无码中文字幕久久| 国产精品中文字幕久久久| 粉嫩蜜臀av国产精品网站| 男人天堂资源在线| 成年无码av片在线| 模特精品在线| 69av二区| 丝袜美腿精品国产二区| 日韩天天综合| 毛片毛片毛片毛片| 国产午夜精品麻豆| 伊人久久亚洲热| 毛片一级免费一级| 日韩亚洲欧美成人| 久久爱www久久做| 午夜不卡视频| 91久久精品视频| 日韩毛片一二三区| 亚洲精品a区| 国产手机免费视频| 亚洲精品在线观| 欧美日本一区| 伊人资源视频在线| 韩国精品美女www爽爽爽视频| 国产精品自在欧美一区| 91亚洲天堂| 狠狠干一区二区| 色8久久人人97超碰香蕉987| 香蕉久久精品日日躁夜夜躁| 日韩av在线第一页| 亚洲午夜久久久久久久| 天堂在线亚洲视频| 蜜芽在线免费观看| 成人午夜黄色影院| 亚洲国产精品久久人人爱蜜臀| 牛牛精品成人免费视频| 国产视频一区二区视频| 久久av在线播放| 久久久综合视频| 国产一精品一av一免费爽爽| 国产人妻777人伦精品hd| 日韩av中文字幕在线| 奇米精品一区二区三区在线观看一 | 精品亚洲欧美一区| h片在线播放| 日韩国产伦理| 日韩欧美一区二区久久婷婷| 9国产精品视频| 菠萝菠萝蜜在线视频免费观看| 高清国产一区| 欧美日韩在线综合| 久久成人免费| 免费在线观看av电影| 欧美一级黄色录像片| 一本色道久久88精品综合| 国产精品亚洲一区二区三区妖精| 婷婷激情一区| 免费在线观看亚洲视频| 久久久久久久网站| 亚洲最大成人综合| 欧美福利影院| 欧美xxxx性xxxxx高清| 午夜探花在线观看| 亚洲欧美中文日韩在线| 99久久精品国产一区二区三区 | 成人免费av资源| 综合久草视频| 成人国产视频在线| 亚洲一区二区三| 欧美一区二区大片| 国产精品88av| 久久丝袜视频| 国内精品在线视频| 水蜜桃亚洲一二三四在线| 在线国产精品视频| 亚洲美腿欧美偷拍| 一区在线视频观看| 91精品xxx在线观看| 亚州av影院| 国产一区二区自拍| 亚洲欧美综合区自拍另类| 中文成人综合网| 欧美日韩亚洲一区三区| 亚洲电影观看| 国产经典视频一区| 日韩妆和欧美的一区二区|