750篇文獻,徹底把統一多模態模型講清了
未來,邁向 AGI 需要能夠同時“理解”與“生成”文本、圖像、視頻和音頻等多種模態的 AI 系統。

UFM 研究全景概覽,按六大關鍵維度劃分:編碼、解碼、建模、訓練、應用與基準。
近期閉源模型 GPT-5.2、Gemini 3 Pro大放異彩,盡管開源社區已出現 BAGEL、Emu3 等可喜進展,開源統一多模態基礎模型(UFM)整體仍落后于閉源對手。
今天分享南大&自動化所&北大聯合發表的涵蓋754篇文獻的84頁最新《統一多模態理解與生成綜述:進展與挑戰》

1. 為什么要“統一”?
傳統路線把“理解”和“生成”拆成兩條賽道:
- 理解端:CLIP、LLaVA、Qwen-VL 等專做圖像→文本
- 生成端:Stable Diffusion、Sora、FLUX 等專做文本→圖像/視頻

Fig-1 三階段演化圖
圖1:從“專才”到“通才”再到“涌現”的三階段演化
痛點
- 割裂導致能力天花板:例如“把劇本拍成電影”需要同時理解長文本、生成連續鏡頭,單一路徑無法完成。
- 數據/參數冗余:兩套模型重復存儲世界知識,推理時還要級聯,延遲高、誤差累加。
作者引用費曼名言 “What I cannot create, I do not understand”,指出“理解?生成”本就該是互相增強的閉環。
2. 什么叫“統一多模態大模型”(UFM)

Fig-3 統一任務集合示意
論文給出形式化定義:
- 任務集合 PowerUniSet = 2^(T_U ∪ T_G) - 2^T_U - 2^T_G即必須同時包含至少一項理解任務 T_U 和一項生成任務 T_G。
- 模型 M 經過統一預訓練(Unified Pre-training, UP)后,對任意 x∈I ∈ PowerUniSet 都能直接輸出合法結果。
3. 建模范式——三條技術路線
路線 | 耦合度 | 代表工作 | 一句話總結 |
A. 外掛專家 | 最松 | Visual-ChatGPT、HuggingGPT | LLM 當“調度員”,調用 Stable Diffusion、Whisper 等黑盒 API |
B. 模塊化聯合 | 中等 | NExT-GPT、DreamLLM | LLM 輸出 Prompt/特征,外部擴散模型負責解碼 |
C. 端到端統一 | 最緊 | Emu3、Janus-Pro、Chameleon、BAGEL | 所有模態 token 化→同一 Transformer 解碼,無外部模型 |

圖2:700+ 論文的“族譜”,按編碼/解碼/建模/訓練/應用五大維度整理
4. 編碼策略——把圖像/視頻/音頻變成 token

Fig-7 編碼策略一覽
表示類型 | 連續 | 離散 | 混合 |
核心思想 | CLIP/EVA-CLIP 特征 | VQ-VAE/VQGAN 碼本 | 雙分支:語義+像素 |
優點 | 語義對齊好 | 兼容 LLM 詞表 | 兩全其美 |
缺點 | 無法直接生成 | 量化損失細節 | 架構復雜 |
5. 解碼策略——把 token 變回像素/波形

Fig-8 解碼策略一覽
策略 | 代表 | 關鍵點 |
外部擴散 | Emu2、MetaMorph | LLM 輸出→凍結 SDXL/FLUX 條件,訓練輕量 Adapter |
內部擴散 | Transfusion、Show-o | 擴散頭直接插在 LLM 內部,端到端訓練 |
離散自回歸 | Emu3、Chameleon | 純 Next-Token Prediction,無擴散,推理速度快但細節略遜 |
6. 訓練三板斧——怎么煉成 UFM

Fig-10 預訓練流程
階段 | 目標 | 關鍵技巧 |
1. 編碼-解碼預訓練 | tokenizer 會編會解 | 耦合訓練 VAE,或凍結 CLIP+訓 Adapter |
2. 多模態對齊 | 把不同模態拉到同一語義空間 | 對比學習、Q-Former、Linear Projection |
3. 統一骨干訓練 | 讓 LLM 同時會理解和生成 | 混合目標:NTP + 擴散損失 + 對齊損失 |

7. 微調與對齊——再拔高

微調范式 | 數據 | 技巧 |
通用任務微調 | LLaVA-Instruct、SEED-Data-Edit | 多任務混合,統一 NTP 損失 |
多任務微調 | 醫學影像、3D 點云 | 分階段/分專家,緩解沖突 |
人類偏好對齊 | DPO/GRPO 三元組 | 理解+生成聯合獎勵,迭代式 SFT→DPO |
8. 數據工程——“垃圾進,垃圾出”

Fig-15 現有數據集全景
論文把數據拆成 4 個來源 + 4 步清洗 + 3 種構造方法,堪稱“工業級配方”:
- 來源:公開爬取(LAION-5B)、精品標注(COCO)、私有數據、合成數據(GPT-4o)
- 清洗:去重→NSFW→美學打分→CLIPScore 過濾
- 構造:
- 把舊數據集改寫成 <指令,輸入,輸出>
- 用大模型合成復雜指令
- 人工精標 + 眾包偏好
9. Benchmark——如何公平“賽馬”

Fig-16 Benchmark 地圖
維度 | 代表 Benchmark | 亮點 |
理解 | MMBench、MMMU、MathVista | 細分技能,多選+自動判分 |
生成 | GenEval、T2I-CompBench、VE-Bench | 組合、編輯、物理一致性 |
混合 | MME-Unify、RealUnify | 首次要求“理解?生成”互相促進 |
10. 落地應用——不止于“文生圖”

Fig-17 下游應用示意
領域 | 典型工作 | UFM 價值 |
機器人 | GR-2、SEER | 用視頻生成做“世界模型”,零樣本泛化 |
自動駕駛 | DrivingGPT、Epona | 聯合預測未來幀+軌跡,省掉冗余感知頭 |
世界模型 | Aether、TesserAct | 4D(視頻+深度+位姿)聯合擴散,學物理規律 |
醫療 | LLM-CXR、HealthGPT | 一張胸片既能生成報告,也能根據報告還原圖像 |
通用視覺 | VisionLLM v2、VGGT | 檢測/分割/深度/3D 重建全 unified,無需專用頭 |
11. 未來風向標
- 建模:AR+Diffusion 混合仍是主線,MoE 路由策略需更細粒度
- Tokenizer:朝向“一個碼表搞定所有模態”的 Omni-Tokenizer
- 訓練:精細交錯數據 + 強化學習人類偏好,雙任務聯合獎勵函數
- 評測:把“理解幫助生成、生成反哺理解”量化,而非單純拼單指標
https://www.techrxiv.org/doi/pdf/10.36227/techrxiv.176289261.16802577
A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Unified本文轉載自??PaperAgent??????

















