天下苦VAE久矣:阿里高德提出像素空間生成模型訓練范式, 徹底告別VAE依賴
近年來,基于擴散模型的圖像生成技術發展迅猛,催生了Stable Diffusion、Midjourney等一系列強大的文生圖應用。然而,當前主流的訓練范式普遍依賴一個核心組件——變分自編碼器(VAE),這也帶來了長久以來困擾研究者們的幾個問題:
- 訓練復雜性:VAE旨在將高維圖像壓縮至低維隱空間,并能從中重建圖像。但其訓練過程需要在壓縮率和重建質量之間取得精妙平衡,本身就極具挑戰。
- 高昂的微調成本:當需要在新的領域(域外數據集)上微調生成模型時,如果預訓練的VAE在該領域表現不佳,則必須連同生成模型一起微調,這無疑會顯著增加訓練成本和開發周期。
為了從根本上解決VAE帶來的諸多限制,EPG中提出通過自監督預訓練(SSL Pre-training)與端到端微調(End-to-End Fine-tuning)相結合的方式,徹底去除了生成模型對VAE的依賴。

其核心優勢在于:
訓練效率與生成效果雙重突破:在ImageNet-256和512數據集上,EPG在訓練效率遠超基于VAE的主流模型DiT/SiT的同時,僅僅通過75次模型前向計算就取得了更優的生成質量,FID分別達到了2.04和2.35。

首次實現像素空間的一致性模型訓練:在不依賴VAE及預訓練的擴散模型權重的前提下,EPG首次成功在像素空間中端到端地訓練了一致性模型(Consistency Model),在ImageNet-256上僅需單步即可取得8.82的FID。

△在8xH200上測得的訓練開銷。*: 基于官方代碼預估
訓練方法:“像訓練圖像分類器一樣訓練生成模型”
EPG的核心思想借鑒了計算機視覺領域經典的“預訓練-微調”范式,將復雜的生成任務解耦為兩個更易于處理的階段。
第一階段:自監督預訓練 (SSL Pre-training) —— 解耦表征學習與像素重建
EPG的核心洞察在于,生成模型本質上需要從帶噪圖像中學習高質量的視覺表征。受此啟發,EPG創新地將學習表征與重建像素解耦為兩個獨立的學習階段。
在第一階段,模型僅需利用自監督表征學習算法,從帶噪圖像中提取高質量的視覺特征。這一階段只訓練模型的前半部分網絡——編碼器(Encoder)。然而,現有表征學習方法難以直接應用于噪聲圖像,尤其當噪聲完全覆蓋圖像內容時。
為解決此問題,EPG提出了一種簡潔而高效的解決方案:讓模型在干凈圖像上學習“標準”表征,再通過一致性損失將該表征對齊(傳遞)給帶噪圖像的表征。具體地,文中選取ODE采樣路徑上的相鄰兩點作為帶噪圖像對,以保證每個帶噪版本都能學習到唯一的、與干凈圖像對齊的表征。
此階段的預訓練損失函數包含兩部分:a. 對比損失 (Contrastive Loss):從干凈圖像中學習高質量的初始表征。 b. 表征一致性損失 (Representation Consistency Loss):將帶噪圖像的表征與干凈圖像的表征對齊。

△訓練方法總覽。
(左圖)預訓練方法。c是一個可學習表征,t0, tn, tn-1為時間步條件,y1,y2為每一次訓練所采樣圖片x0進行數據增強后的圖像,xtn, x_tn-1為ODE采樣路徑上時序上相鄰的兩點。θ是網絡參數,θ^-是\theta的EMA版本,sg表示stop gradient操作。(右圖)端到端微調方法。預訓練結束后,僅使用Eθ 加隨機初始化的解碼器D_θ進行端到端微調。
第二階段:端到端微調 (End-to-End Fine-tuning) —— 無縫銜接下游生成任務
預訓練階段完成后,EPG的微調過程十分直接:將預訓練好的編碼器(Eθ)與一個隨機初始化的解碼器(Dθ)拼接,然后直接使用擴散模型或一致性模型的損失函數進行端到端微調。
EPG的訓練框架與經典的圖像分類任務框架高度相似,這極大地簡化了生成模型的訓練流程,降低了開發和應用下游生成任務的門檻。
實驗
EPG在ImageNet-256和ImageNet-512兩大標準數據集上驗證了其有效性。
將去噪訓練作為微調目標(擴散模型)的生成效果:


將一致性訓練作為微調目標(單步生成)的生成效果:

訓練效率與生成質量:
實驗證明,EPG框架不僅完全彌補了以往像素空間訓練與隱空間訓練在效率和效果上的差距,更在同等計算資源下實現了超越。這為未來在更高分辨率、更大數據集上的訓練,乃至視頻生成等領域,提供了極具參考價值的解決方案。
推理性能:
基于EPG訓練的擴散模型,在推理時僅需75次模型前向計算即可達到最優效果,步數遠低于其他方法。此外,EPG的骨干網絡采用Vision Transformer(ViT)且Patch Size為16x16,在256x256圖像上的單張生成速度可媲美DiT;在512x512圖像上(使用32x32的Patch Size),其生成速度依然能和在256x256的速度保持一致,展現了優異的可擴展性。
總結
EPG框架的提出,為像素空間生成模型的訓練提供了一條簡潔、高效且不依賴VAE的全新路徑。
通過“自監督預訓練 + 端到端微調”的兩階段策略,EPG成功地將復雜的生成任務分解為目標明確的表征學習和像素重建兩個步驟。這不僅使其在訓練效率和最終生成質量(FID低至2.04)上全面超越了依賴VAE的DiT等主流模型,更重要的是,EPG首次在完全不依賴任何外部預訓練模型(如VAE或DINO)的情況下,實現了像素空間內一致性模型的端到端訓練,取得了單步生成8.82 FID的優異成績。
這項工作不僅為圖像生成領域帶來了性能與效率的雙重提升,也為視頻生成、多模態統一模型等前沿方向提供了極具潛力的基礎框架。EPG所代表的“去VAE化”、端到端的訓練范式,將進一步推動生成式AI的探索與應用,降低開發門檻,激發更多創新。
論文鏈接:
https://arxiv.org/pdf/2510.12586
代碼倉庫鏈接:
https://github.com/AMAP-ML/EPG
































