徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3

發(fā)布于 2025-12-17 09:13

瀏覽

0收藏

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2512.11749
代碼鏈接：https://github.com/KlingTeam/SVG-T2I
模型鏈接：https://huggingface.co/KlingTeam/SVG-T2I

亮點(diǎn)直擊

首次在視覺(jué)特征模型（VFM）特征空間上對(duì)文本到圖像的隱擴(kuò)散模型進(jìn)行了大規(guī)模驗(yàn)證。
開(kāi)源了SVG-T2I模型的完整訓(xùn)練與推理流程，并提供多個(gè)尺寸的預(yù)訓(xùn)練權(quán)重，以促進(jìn)后續(xù)研究。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

核心挑戰(zhàn)：視覺(jué)基礎(chǔ)模型雖然在理解與感知上表現(xiàn)出色，但其表征空間尚未被充分用于大規(guī)模、高質(zhì)量的視覺(jué)生成。
研究空白：在VFM特征空間內(nèi)端到端地訓(xùn)練大規(guī)模文本到圖像生成模型是一個(gè)未經(jīng)充分探索的領(lǐng)域，缺乏相關(guān)驗(yàn)證和可行的方案。

提出的方案

模型創(chuàng)新：提出了SVG-T2I模型，作為對(duì)SVG框架的規(guī)模化擴(kuò)展。
技術(shù)路線：將標(biāo)準(zhǔn)的文本到圖像隱擴(kuò)散模型流程直接應(yīng)用于VFM的特征域中，實(shí)現(xiàn)從文本到VFM特征再到圖像的生成通路。

應(yīng)用的技術(shù)

基礎(chǔ)模型：視覺(jué)基礎(chǔ)模型（VFM），作為核心的視覺(jué)表征來(lái)源。
生成架構(gòu)：文本到圖像的隱擴(kuò)散模型框架。
訓(xùn)練方法：在VFM特征空間內(nèi)進(jìn)行大規(guī)模訓(xùn)練。

達(dá)到的效果

性能驗(yàn)證：在標(biāo)準(zhǔn)評(píng)測(cè)基準(zhǔn)（GenEval和DPG-Bench）上取得了具有競(jìng)爭(zhēng)力的分?jǐn)?shù)（0.75和85.78），首次在較大規(guī)模上實(shí)證了VFM表征用于生成任務(wù)的可行性與潛力。
開(kāi)源貢獻(xiàn)：完整開(kāi)源了包括自編碼器、生成模型、訓(xùn)練/推理/評(píng)估流程及多尺寸預(yù)訓(xùn)練權(quán)重的全套項(xiàng)目，為后續(xù)研究提供了重要基礎(chǔ)和工具，降低了該領(lǐng)域的研究門(mén)檻。
路徑探索：為“表征驅(qū)動(dòng)的視覺(jué)生成”這一統(tǒng)一技術(shù)路徑提供了一個(gè)成功的實(shí)踐案例和可擴(kuò)展的框架。

方法

SVG-T2I 成功地將原始 SVG 框架擴(kuò)展到大規(guī)模、高分辨率的文本到圖像合成，從而產(chǎn)生了 SVG-T2I 模型。

用于視覺(jué)生成的自監(jiān)督表示

SVG證明了在高維 VFM 特征空間中實(shí)現(xiàn)高質(zhì)量圖像重建和類(lèi)別到圖像生成的可能性。在此基礎(chǔ)上，SVG-T2I 將該方法擴(kuò)展到大規(guī)模文本到圖像訓(xùn)練，從而能夠直接在 VFM 特征域中進(jìn)行有效生成。SVG-T2I 的整體架構(gòu)如下圖2所示。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

SVG-T2I 自動(dòng)編碼器。 繼承自 SVG和 RAE的架構(gòu)設(shè)計(jì)，本工作發(fā)布了兩種自動(dòng)編碼器配置，以促進(jìn)社區(qū)研究。第一種是 autoencoder-P (Pure)，它直接利用凍結(jié)的 DINOv3 特征。第二種是 autoencoder-R (Residual)，它保留了 SVG 中的殘差分支設(shè)計(jì)作為可選方案。當(dāng)需要更高的保真度時(shí)，此殘差模塊(基于 Vision Transformer)旨在補(bǔ)償高頻細(xì)節(jié)和偏色偽影。兩種變體都使用相同的解碼器設(shè)計(jì)，將特征映射回像素空間。

SVG-T2I DiT。 使用 Unified Next-DiT架構(gòu)作為骨干網(wǎng)絡(luò)，它將文本和圖像標(biāo)記視為聯(lián)合序列，從而實(shí)現(xiàn)自然的跨模態(tài)交互并允許無(wú)縫的任務(wù)擴(kuò)展。Unified Next-DiT 架構(gòu)是一種可擴(kuò)展的單流變體，類(lèi)似于最先進(jìn)的開(kāi)源基于 VAE 的文本到圖像模型 Z-Image中使用的架構(gòu)。本工作采用這種單流設(shè)計(jì)以實(shí)現(xiàn)更高的參數(shù)效率，并聯(lián)合處理文本和 DINO 特征。本文直接在高維 VFM (DINOv3) 特征空間上訓(xùn)練骨干網(wǎng)絡(luò)，使用方程 (2) 中定義的流匹配目標(biāo)函數(shù)。在本文的框架中，使用 DINOv3-ViT-S/16+ 編碼器，它將 H × W × 3 圖像映射到 (H/16) × (W/16) × 384 特征表示。

SVG-T2I 訓(xùn)練流程。 訓(xùn)練分兩個(gè)階段進(jìn)行。在第一階段，本文從頭開(kāi)始單獨(dú)訓(xùn)練 autoencoder-P 和 autoencoder-R。具體來(lái)說(shuō)，autoencoder-R 通過(guò)重建損失和其殘差分支上的分布匹配策略以及遵循SVG的解碼器進(jìn)行優(yōu)化。在第二階段，本文訓(xùn)練配備 autoencoder-P 的 SVG-T2I DiT，遵循漸進(jìn)式調(diào)度（參見(jiàn)訓(xùn)練細(xì)節(jié)）。

將 SVG 擴(kuò)展到更高分辨率

SVG和 RAE主要關(guān)注在低分辨率設(shè)置下在 VFM 表示空間中學(xué)習(xí)生成擴(kuò)散模型。本工作通過(guò)研究 SVG 在高分辨率生成中的行為和有效性來(lái)擴(kuò)展這一研究方向。

本文觀察到從 DINOv3 特征重建圖像時(shí)存在明顯的與分辨率相關(guān)的行為，如下圖3所示。雖然低分辨率輸入的重建在精細(xì)結(jié)構(gòu)上存在退化，但高分辨率輸入會(huì)產(chǎn)生明顯更詳細(xì)和忠實(shí)的結(jié)果。這表明 DINOv3 表示本質(zhì)上能夠有效地在高分辨率下保留詳細(xì)的視覺(jué)線索。至關(guān)重要的是，這種能力表明 DINOv3 編碼器本身足以進(jìn)行高分辨率重建，從而無(wú)需輔助殘差編碼器。此外，與其他混合架構(gòu)相比，僅依賴(lài) VFM 表示提供了一種更通用和可重用的范式。受表示充分性和對(duì)流線型、多功能框架的渴望的推動(dòng)，本工作將原始 SVG 自動(dòng)編碼器中的殘差編碼器配置為可選，并在高分辨率重建或生成期間將其省略。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

實(shí)驗(yàn)

本文通過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證了所提出的 SVG-T2I 的可行性和有效性。

模型訓(xùn)練

SVG-T2I 自動(dòng)編碼器訓(xùn)練細(xì)節(jié)。 自動(dòng)編碼器采用漸進(jìn)式策略進(jìn)行訓(xùn)練。首先，模型在 ImageNet (數(shù)據(jù) A) 上以 256×256 的固定分辨率預(yù)訓(xùn)練 40 個(gè) epoch。然后，在多分辨率微調(diào)階段，本文使用來(lái)自 3M 樣本數(shù)據(jù)集 (數(shù)據(jù) B) 的原始分辨率圖像繼續(xù)訓(xùn)練。在此階段，模型以 512×512 的錨定分辨率訓(xùn)練 10M 圖像，然后以 1024×1024 訓(xùn)練額外的 6M 圖像。訓(xùn)練的超參數(shù)設(shè)置可參考下表7。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

SVG-T2I DiT 訓(xùn)練細(xì)節(jié)。 本文采用 Lumina-Image-2.0 中的 Unified Next-DiT 架構(gòu)作為擴(kuò)散 transformer 的骨干網(wǎng)絡(luò)。對(duì)于文本條件，本文利用 Gemma2-2B 大型語(yǔ)言模型來(lái)提取豐富的文本嵌入，該模型具有強(qiáng)大的多語(yǔ)言能力。本文將最大文本標(biāo)記長(zhǎng)度設(shè)置為 256，以平衡前三個(gè)階段的長(zhǎng)字幕建模能力和訓(xùn)練效率。在高質(zhì)量數(shù)據(jù)調(diào)整狀態(tài)下，最大文本標(biāo)記長(zhǎng)度設(shè)置為 512。數(shù)據(jù) C、D、E 中的每張圖像都標(biāo)注了三種長(zhǎng)度（短、中、長(zhǎng)）的雙語(yǔ)字幕（中文和英文）。在訓(xùn)練過(guò)程中，本文采用混合采樣策略，選擇字幕語(yǔ)言和長(zhǎng)度。短、中、長(zhǎng)字幕的采樣概率如下表1所示，語(yǔ)言采樣比例固定為中文 0.2，英文 0.8。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

本工作使用多階段漸進(jìn)式訓(xùn)練策略來(lái)訓(xùn)練配備 autoencoder-P 的 SVG-T2I。在前兩個(gè)階段，模型在 60M 樣本 (數(shù)據(jù) C) 上以低分辨率和中分辨率進(jìn)行訓(xùn)練，以建立魯棒的文本-圖像對(duì)齊并捕獲低頻結(jié)構(gòu)。在第三階段，本文將學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到更高分辨率，使模型能夠使用 15M 樣本 (數(shù)據(jù) D) 細(xì)化細(xì)粒度視覺(jué)細(xì)節(jié)。在最后階段，SVG-T2I 在 1M 高質(zhì)量美學(xué)樣本 (數(shù)據(jù) E) 上進(jìn)行微調(diào)，以進(jìn)一步增強(qiáng)其合成逼真和視覺(jué)吸引力輸出的能力。如下圖5所示，視覺(jué)質(zhì)量在各個(gè)階段穩(wěn)步提高。訓(xùn)練的超參數(shù)設(shè)置可參考下表8。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

主要結(jié)果

評(píng)估。 本文通過(guò)定量和定性指標(biāo)評(píng)估了 SVG-T2I。本文報(bào)告了 GenEval和 DPG-Bench的性能，以根據(jù)其官方協(xié)議評(píng)估 SVG-T2I 的全方位能力。所有用于評(píng)估的圖像均以 1024 × 1024 的高分辨率生成。本文的 SVG-T2I 模型成功地?cái)U(kuò)展了 VFM 表示范式，實(shí)現(xiàn)了大規(guī)模 T2I 生成，并在這兩個(gè)基準(zhǔn)上取得了有競(jìng)爭(zhēng)力的性能。在 GenEval（如下表5所示）上，本文的最終模型 SVG-T2I 總體得分為 0.74，與 SD3-Medium等模型的性能相匹配，并顯著超越了 SDXL和 DALL-E 2。此外，在 DPG-Bench（如下表6所示）上，SVG-T2I 總體得分為 85.78，在統(tǒng)計(jì)上與 FLUX.1和 HiDream-I1-Full等頂級(jí)基于 VAE 的擴(kuò)散模型相當(dāng)。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

分析

當(dāng)前 VFM 特征的局限性。 現(xiàn)有自監(jiān)督學(xué)習(xí)方法生成的表示捕獲了高級(jí)語(yǔ)義上下文和細(xì)粒度視覺(jué)細(xì)節(jié)，為下游重建和生成提供了強(qiáng)大的基礎(chǔ)。原則上，這些表示在很大程度上是自給自足的。然而，當(dāng)訓(xùn)練范式涉及多種輸入分辨率時(shí)，這種自給自足性受到嚴(yán)峻挑戰(zhàn)。如下圖4所示，VAE 特征表現(xiàn)出幾乎與分辨率無(wú)關(guān)的行為。它們的跨分辨率余弦相似度接近 1.0，而 DINOv3 和 DINOv2 特征則變化更大。這一觀察結(jié)果表明，VFM 派生特征在不同尺度上經(jīng)歷了不可忽略的偏移。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

當(dāng) VFM 編碼器在不同絕對(duì)分辨率的輸入中使用固定補(bǔ)丁或感受野大小（例如，16×16）時(shí)，每個(gè)補(bǔ)丁的語(yǔ)義粒度和有效壓縮比隨尺度系統(tǒng)地變化：低分辨率圖像上的補(bǔ)丁聚合了場(chǎng)景的更大一部分，產(chǎn)生強(qiáng)壓縮、細(xì)節(jié)貧乏的特征；高分辨率圖像上的相同補(bǔ)丁大小捕獲更精細(xì)、主要是局部紋理和結(jié)構(gòu)細(xì)節(jié)。由于 VFM 編碼器通常經(jīng)過(guò)優(yōu)化以生成語(yǔ)義區(qū)分性標(biāo)記，而不是保留統(tǒng)一的局部細(xì)節(jié)，因此它們對(duì)語(yǔ)義/紋理平衡中這種與尺度相關(guān)的變化特別敏感。相比之下，以重建為導(dǎo)向的編碼器（例如，VAE）不明確考慮每個(gè)編碼區(qū)域中存在的語(yǔ)義內(nèi)容；相反，它們主要旨在捕獲足夠的局部信息以進(jìn)行像素級(jí)重建，從而導(dǎo)致表示容量的分配更均勻且分辨率更穩(wěn)定。

因此，對(duì)于用于擴(kuò)散建模的語(yǔ)義視覺(jué)編碼器而言，保持穩(wěn)定的跨分辨率行為成為一個(gè)重要的優(yōu)化目標(biāo)。訓(xùn)練流程可能需要包含鼓勵(lì)一致特征幾何并幫助保持跨尺度細(xì)粒度細(xì)節(jié)保真度的機(jī)制。

SVG-T2I 的局限性。 盡管 SVG-T2I 在各種場(chǎng)景中都表現(xiàn)出強(qiáng)大的生成能力，但仍存在一些局限性。如下圖6所示，該模型偶爾難以生成高度詳細(xì)的人臉，特別是在需要細(xì)粒度空間一致性的區(qū)域，例如眼睛、眉毛。同樣，解剖學(xué)上準(zhǔn)確的手指生成仍然具有挑戰(zhàn)性，這是生成模型中常見(jiàn)的故障模式，當(dāng)姿勢(shì)復(fù)雜性增加時(shí)，通常會(huì)導(dǎo)致形狀扭曲或拓?fù)洳徽_。SVG-T2I 在文本渲染方面也表現(xiàn)出有限的可靠性。這些缺點(diǎn)主要源于訓(xùn)練語(yǔ)料庫(kù)中此類(lèi)細(xì)粒度案例的覆蓋不足，以及建模高頻模式和精確幾何關(guān)系所需的大量計(jì)算需求。解決這些局限性可能需要更專(zhuān)業(yè)的數(shù)據(jù)集和額外的訓(xùn)練計(jì)算。

徹底告別VAE！清華x可靈聯(lián)手開(kāi)源SVG-T2I：生成理解合二為一，性能媲美SD3-AI.x社區(qū)

結(jié)論

本文成功地將原始 SVG 框架擴(kuò)展到大規(guī)模、高分辨率的文本到圖像合成，從而產(chǎn)生了 SVG-T2I 模型。這項(xiàng)工作驗(yàn)證了從頭開(kāi)始訓(xùn)練基于 VFM 表示的高質(zhì)量 T2I 模型的可能性，其生成指標(biāo)與現(xiàn)代先進(jìn)方法相當(dāng)，并展示了 VFM 語(yǔ)義空間作為高分辨率合成有效潛在流形的潛力。為了促進(jìn)進(jìn)一步研究和確保可重現(xiàn)性，本工作已完全開(kāi)源了訓(xùn)練、推理和評(píng)估代碼以及模型權(quán)重，希望能夠惠及學(xué)術(shù)界。然而，在研究過(guò)程中，本文也發(fā)現(xiàn)了一個(gè)關(guān)鍵挑戰(zhàn)：現(xiàn)有 VFM 編碼器（例如 DINOv2 和 DINOv3）在以不同輸入分辨率編碼相同圖像時(shí)，會(huì)產(chǎn)生內(nèi)部一致性較差的表示。這種依賴(lài)于分辨率的特征不穩(wěn)定性直接損害了 T2I 模型在各種尺寸下進(jìn)行泛化和保持生成質(zhì)量的能力，這強(qiáng)調(diào)了未來(lái)研究需要關(guān)注尺度不變性。總而言之，本文認(rèn)為，如這項(xiàng)工作所示，戰(zhàn)略性地使用和改進(jìn)強(qiáng)大的 VFM 潛在空間，為實(shí)現(xiàn)各種視覺(jué)任務(wù)的真正統(tǒng)一表示提供了一個(gè)非常有前景的途徑。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/RkJa_rQxEfvjpAhV-Eii9A??

標(biāo)簽

圖像生成

模型

贊

回復(fù)