徹底告別VAE!清華x可靈聯(lián)手開(kāi)源SVG-T2I:生成理解合二為一,性能媲美SD3

論文鏈接:https://arxiv.org/pdf/2512.11749
代碼鏈接:https://github.com/KlingTeam/SVG-T2I
模型鏈接:https://huggingface.co/KlingTeam/SVG-T2I
亮點(diǎn)直擊
- 首次在視覺(jué)特征模型(VFM)特征空間上對(duì)文本到圖像的隱擴(kuò)散模型進(jìn)行了大規(guī)模驗(yàn)證。
- 開(kāi)源了SVG-T2I模型的完整訓(xùn)練與推理流程,并提供多個(gè)尺寸的預(yù)訓(xùn)練權(quán)重,以促進(jìn)后續(xù)研究。


總結(jié)速覽
解決的問(wèn)題
- 核心挑戰(zhàn):視覺(jué)基礎(chǔ)模型雖然在理解與感知上表現(xiàn)出色,但其表征空間尚未被充分用于大規(guī)模、高質(zhì)量的視覺(jué)生成。
- 研究空白:在VFM特征空間內(nèi)端到端地訓(xùn)練大規(guī)模文本到圖像生成模型是一個(gè)未經(jīng)充分探索的領(lǐng)域,缺乏相關(guān)驗(yàn)證和可行的方案。
提出的方案
- 模型創(chuàng)新:提出了SVG-T2I模型,作為對(duì)SVG框架的規(guī)模化擴(kuò)展。
- 技術(shù)路線:將標(biāo)準(zhǔn)的文本到圖像隱擴(kuò)散模型流程直接應(yīng)用于VFM的特征域中,實(shí)現(xiàn)從文本到VFM特征再到圖像的生成通路。
應(yīng)用的技術(shù)
- 基礎(chǔ)模型:視覺(jué)基礎(chǔ)模型(VFM),作為核心的視覺(jué)表征來(lái)源。
- 生成架構(gòu):文本到圖像的隱擴(kuò)散模型框架。
- 訓(xùn)練方法:在VFM特征空間內(nèi)進(jìn)行大規(guī)模訓(xùn)練。
達(dá)到的效果
- 性能驗(yàn)證:在標(biāo)準(zhǔn)評(píng)測(cè)基準(zhǔn)(GenEval和DPG-Bench)上取得了具有競(jìng)爭(zhēng)力的分?jǐn)?shù)(0.75和85.78),首次在較大規(guī)模上實(shí)證了VFM表征用于生成任務(wù)的可行性與潛力。
- 開(kāi)源貢獻(xiàn):完整開(kāi)源了包括自編碼器、生成模型、訓(xùn)練/推理/評(píng)估流程及多尺寸預(yù)訓(xùn)練權(quán)重的全套項(xiàng)目,為后續(xù)研究提供了重要基礎(chǔ)和工具,降低了該領(lǐng)域的研究門(mén)檻。
- 路徑探索:為“表征驅(qū)動(dòng)的視覺(jué)生成”這一統(tǒng)一技術(shù)路徑提供了一個(gè)成功的實(shí)踐案例和可擴(kuò)展的框架。
方法
SVG-T2I 成功地將原始 SVG 框架擴(kuò)展到大規(guī)模、高分辨率的文本到圖像合成,從而產(chǎn)生了 SVG-T2I 模型。
用于視覺(jué)生成的自監(jiān)督表示
SVG證明了在高維 VFM 特征空間中實(shí)現(xiàn)高質(zhì)量圖像重建和類(lèi)別到圖像生成的可能性。在此基礎(chǔ)上,SVG-T2I 將該方法擴(kuò)展到大規(guī)模文本到圖像訓(xùn)練,從而能夠直接在 VFM 特征域中進(jìn)行有效生成。SVG-T2I 的整體架構(gòu)如下圖2所示。

SVG-T2I 自動(dòng)編碼器。 繼承自 SVG和 RAE的架構(gòu)設(shè)計(jì),本工作發(fā)布了兩種自動(dòng)編碼器配置,以促進(jìn)社區(qū)研究。第一種是 autoencoder-P (Pure),它直接利用凍結(jié)的 DINOv3 特征。第二種是 autoencoder-R (Residual),它保留了 SVG 中的殘差分支設(shè)計(jì)作為可選方案。當(dāng)需要更高的保真度時(shí),此殘差模塊(基于 Vision Transformer)旨在補(bǔ)償高頻細(xì)節(jié)和偏色偽影。兩種變體都使用相同的解碼器設(shè)計(jì),將特征映射回像素空間。
SVG-T2I DiT。 使用 Unified Next-DiT架構(gòu)作為骨干網(wǎng)絡(luò),它將文本和圖像標(biāo)記視為聯(lián)合序列,從而實(shí)現(xiàn)自然的跨模態(tài)交互并允許無(wú)縫的任務(wù)擴(kuò)展。Unified Next-DiT 架構(gòu)是一種可擴(kuò)展的單流變體,類(lèi)似于最先進(jìn)的開(kāi)源基于 VAE 的文本到圖像模型 Z-Image中使用的架構(gòu)。本工作采用這種單流設(shè)計(jì)以實(shí)現(xiàn)更高的參數(shù)效率,并聯(lián)合處理文本和 DINO 特征。本文直接在高維 VFM (DINOv3) 特征空間上訓(xùn)練骨干網(wǎng)絡(luò),使用方程 (2) 中定義的流匹配目標(biāo)函數(shù)。在本文的框架中,使用 DINOv3-ViT-S/16+ 編碼器,它將 H × W × 3 圖像映射到 (H/16) × (W/16) × 384 特征表示。
SVG-T2I 訓(xùn)練流程。 訓(xùn)練分兩個(gè)階段進(jìn)行。在第一階段,本文從頭開(kāi)始單獨(dú)訓(xùn)練 autoencoder-P 和 autoencoder-R。具體來(lái)說(shuō),autoencoder-R 通過(guò)重建損失和其殘差分支上的分布匹配策略以及遵循SVG的解碼器進(jìn)行優(yōu)化。在第二階段,本文訓(xùn)練配備 autoencoder-P 的 SVG-T2I DiT,遵循漸進(jìn)式調(diào)度(參見(jiàn)訓(xùn)練細(xì)節(jié))。
將 SVG 擴(kuò)展到更高分辨率
SVG和 RAE主要關(guān)注在低分辨率設(shè)置下在 VFM 表示空間中學(xué)習(xí)生成擴(kuò)散模型。本工作通過(guò)研究 SVG 在高分辨率生成中的行為和有效性來(lái)擴(kuò)展這一研究方向。
本文觀察到從 DINOv3 特征重建圖像時(shí)存在明顯的與分辨率相關(guān)的行為,如下圖3所示。雖然低分辨率輸入的重建在精細(xì)結(jié)構(gòu)上存在退化,但高分辨率輸入會(huì)產(chǎn)生明顯更詳細(xì)和忠實(shí)的結(jié)果。這表明 DINOv3 表示本質(zhì)上能夠有效地在高分辨率下保留詳細(xì)的視覺(jué)線索。至關(guān)重要的是,這種能力表明 DINOv3 編碼器本身足以進(jìn)行高分辨率重建,從而無(wú)需輔助殘差編碼器。此外,與其他混合架構(gòu)相比,僅依賴(lài) VFM 表示提供了一種更通用和可重用的范式。受表示充分性和對(duì)流線型、多功能框架的渴望的推動(dòng),本工作將原始 SVG 自動(dòng)編碼器中的殘差編碼器配置為可選,并在高分辨率重建或生成期間將其省略。

實(shí)驗(yàn)
本文通過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證了所提出的 SVG-T2I 的可行性和有效性。
模型訓(xùn)練
SVG-T2I 自動(dòng)編碼器訓(xùn)練細(xì)節(jié)。 自動(dòng)編碼器采用漸進(jìn)式策略進(jìn)行訓(xùn)練。首先,模型在 ImageNet (數(shù)據(jù) A) 上以 256×256 的固定分辨率預(yù)訓(xùn)練 40 個(gè) epoch。然后,在多分辨率微調(diào)階段,本文使用來(lái)自 3M 樣本數(shù)據(jù)集 (數(shù)據(jù) B) 的原始分辨率圖像繼續(xù)訓(xùn)練。在此階段,模型以 512×512 的錨定分辨率訓(xùn)練 10M 圖像,然后以 1024×1024 訓(xùn)練額外的 6M 圖像。訓(xùn)練的超參數(shù)設(shè)置可參考下表7。

SVG-T2I DiT 訓(xùn)練細(xì)節(jié)。 本文采用 Lumina-Image-2.0 中的 Unified Next-DiT 架構(gòu)作為擴(kuò)散 transformer 的骨干網(wǎng)絡(luò)。對(duì)于文本條件,本文利用 Gemma2-2B 大型語(yǔ)言模型來(lái)提取豐富的文本嵌入,該模型具有強(qiáng)大的多語(yǔ)言能力。本文將最大文本標(biāo)記長(zhǎng)度設(shè)置為 256,以平衡前三個(gè)階段的長(zhǎng)字幕建模能力和訓(xùn)練效率。在高質(zhì)量數(shù)據(jù)調(diào)整狀態(tài)下,最大文本標(biāo)記長(zhǎng)度設(shè)置為 512。數(shù)據(jù) C、D、E 中的每張圖像都標(biāo)注了三種長(zhǎng)度(短、中、長(zhǎng))的雙語(yǔ)字幕(中文和英文)。在訓(xùn)練過(guò)程中,本文采用混合采樣策略,選擇字幕語(yǔ)言和長(zhǎng)度。短、中、長(zhǎng)字幕的采樣概率如下表1所示,語(yǔ)言采樣比例固定為中文 0.2,英文 0.8。

本工作使用多階段漸進(jìn)式訓(xùn)練策略來(lái)訓(xùn)練配備 autoencoder-P 的 SVG-T2I。在前兩個(gè)階段,模型在 60M 樣本 (數(shù)據(jù) C) 上以低分辨率和中分辨率進(jìn)行訓(xùn)練,以建立魯棒的文本-圖像對(duì)齊并捕獲低頻結(jié)構(gòu)。在第三階段,本文將學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到更高分辨率,使模型能夠使用 15M 樣本 (數(shù)據(jù) D) 細(xì)化細(xì)粒度視覺(jué)細(xì)節(jié)。在最后階段,SVG-T2I 在 1M 高質(zhì)量美學(xué)樣本 (數(shù)據(jù) E) 上進(jìn)行微調(diào),以進(jìn)一步增強(qiáng)其合成逼真和視覺(jué)吸引力輸出的能力。如下圖5所示,視覺(jué)質(zhì)量在各個(gè)階段穩(wěn)步提高。訓(xùn)練的超參數(shù)設(shè)置可參考下表8。


主要結(jié)果
評(píng)估。 本文通過(guò)定量和定性指標(biāo)評(píng)估了 SVG-T2I。本文報(bào)告了 GenEval和 DPG-Bench的性能,以根據(jù)其官方協(xié)議評(píng)估 SVG-T2I 的全方位能力。所有用于評(píng)估的圖像均以 1024 × 1024 的高分辨率生成。本文的 SVG-T2I 模型成功地?cái)U(kuò)展了 VFM 表示范式,實(shí)現(xiàn)了大規(guī)模 T2I 生成,并在這兩個(gè)基準(zhǔn)上取得了有競(jìng)爭(zhēng)力的性能。在 GenEval(如下表5所示)上,本文的最終模型 SVG-T2I 總體得分為 0.74,與 SD3-Medium等模型的性能相匹配,并顯著超越了 SDXL和 DALL-E 2。此外,在 DPG-Bench(如下表6所示)上,SVG-T2I 總體得分為 85.78,在統(tǒng)計(jì)上與 FLUX.1和 HiDream-I1-Full等頂級(jí)基于 VAE 的擴(kuò)散模型相當(dāng)。


分析
當(dāng)前 VFM 特征的局限性。 現(xiàn)有自監(jiān)督學(xué)習(xí)方法生成的表示捕獲了高級(jí)語(yǔ)義上下文和細(xì)粒度視覺(jué)細(xì)節(jié),為下游重建和生成提供了強(qiáng)大的基礎(chǔ)。原則上,這些表示在很大程度上是自給自足的。然而,當(dāng)訓(xùn)練范式涉及多種輸入分辨率時(shí),這種自給自足性受到嚴(yán)峻挑戰(zhàn)。如下圖4所示,VAE 特征表現(xiàn)出幾乎與分辨率無(wú)關(guān)的行為。它們的跨分辨率余弦相似度接近 1.0,而 DINOv3 和 DINOv2 特征則變化更大。這一觀察結(jié)果表明,VFM 派生特征在不同尺度上經(jīng)歷了不可忽略的偏移。

當(dāng) VFM 編碼器在不同絕對(duì)分辨率的輸入中使用固定補(bǔ)丁或感受野大小(例如,16×16)時(shí),每個(gè)補(bǔ)丁的語(yǔ)義粒度和有效壓縮比隨尺度系統(tǒng)地變化:低分辨率圖像上的補(bǔ)丁聚合了場(chǎng)景的更大一部分,產(chǎn)生強(qiáng)壓縮、細(xì)節(jié)貧乏的特征;高分辨率圖像上的相同補(bǔ)丁大小捕獲更精細(xì)、主要是局部紋理和結(jié)構(gòu)細(xì)節(jié)。由于 VFM 編碼器通常經(jīng)過(guò)優(yōu)化以生成語(yǔ)義區(qū)分性標(biāo)記,而不是保留統(tǒng)一的局部細(xì)節(jié),因此它們對(duì)語(yǔ)義/紋理平衡中這種與尺度相關(guān)的變化特別敏感。相比之下,以重建為導(dǎo)向的編碼器(例如,VAE)不明確考慮每個(gè)編碼區(qū)域中存在的語(yǔ)義內(nèi)容;相反,它們主要旨在捕獲足夠的局部信息以進(jìn)行像素級(jí)重建,從而導(dǎo)致表示容量的分配更均勻且分辨率更穩(wěn)定。
因此,對(duì)于用于擴(kuò)散建模的語(yǔ)義視覺(jué)編碼器而言,保持穩(wěn)定的跨分辨率行為成為一個(gè)重要的優(yōu)化目標(biāo)。訓(xùn)練流程可能需要包含鼓勵(lì)一致特征幾何并幫助保持跨尺度細(xì)粒度細(xì)節(jié)保真度的機(jī)制。
SVG-T2I 的局限性。 盡管 SVG-T2I 在各種場(chǎng)景中都表現(xiàn)出強(qiáng)大的生成能力,但仍存在一些局限性。如下圖6所示,該模型偶爾難以生成高度詳細(xì)的人臉,特別是在需要細(xì)粒度空間一致性的區(qū)域,例如眼睛、眉毛。同樣,解剖學(xué)上準(zhǔn)確的手指生成仍然具有挑戰(zhàn)性,這是生成模型中常見(jiàn)的故障模式,當(dāng)姿勢(shì)復(fù)雜性增加時(shí),通常會(huì)導(dǎo)致形狀扭曲或拓?fù)洳徽_。SVG-T2I 在文本渲染方面也表現(xiàn)出有限的可靠性。這些缺點(diǎn)主要源于訓(xùn)練語(yǔ)料庫(kù)中此類(lèi)細(xì)粒度案例的覆蓋不足,以及建模高頻模式和精確幾何關(guān)系所需的大量計(jì)算需求。解決這些局限性可能需要更專(zhuān)業(yè)的數(shù)據(jù)集和額外的訓(xùn)練計(jì)算。

結(jié)論
本文成功地將原始 SVG 框架擴(kuò)展到大規(guī)模、高分辨率的文本到圖像合成,從而產(chǎn)生了 SVG-T2I 模型。這項(xiàng)工作驗(yàn)證了從頭開(kāi)始訓(xùn)練基于 VFM 表示的高質(zhì)量 T2I 模型的可能性,其生成指標(biāo)與現(xiàn)代先進(jìn)方法相當(dāng),并展示了 VFM 語(yǔ)義空間作為高分辨率合成有效潛在流形的潛力。為了促進(jìn)進(jìn)一步研究和確保可重現(xiàn)性,本工作已完全開(kāi)源了訓(xùn)練、推理和評(píng)估代碼以及模型權(quán)重,希望能夠惠及學(xué)術(shù)界。然而,在研究過(guò)程中,本文也發(fā)現(xiàn)了一個(gè)關(guān)鍵挑戰(zhàn):現(xiàn)有 VFM 編碼器(例如 DINOv2 和 DINOv3)在以不同輸入分辨率編碼相同圖像時(shí),會(huì)產(chǎn)生內(nèi)部一致性較差的表示。這種依賴(lài)于分辨率的特征不穩(wěn)定性直接損害了 T2I 模型在各種尺寸下進(jìn)行泛化和保持生成質(zhì)量的能力,這強(qiáng)調(diào)了未來(lái)研究需要關(guān)注尺度不變性。總而言之,本文認(rèn)為,如這項(xiàng)工作所示,戰(zhàn)略性地使用和改進(jìn)強(qiáng)大的 VFM 潛在空間,為實(shí)現(xiàn)各種視覺(jué)任務(wù)的真正統(tǒng)一表示提供了一個(gè)非常有前景的途徑。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)

















