国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

750篇文獻,徹底把統一多模態模型講清了

發布于 2025-12-15 00:43
瀏覽
0收藏

未來,邁向 AGI 需要能夠同時“理解”與“生成”文本、圖像、視頻和音頻等多種模態的 AI 系統。

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

UFM 研究全景概覽,按六大關鍵維度劃分:編碼、解碼、建模、訓練、應用與基準。

近期閉源模型 GPT-5.2、Gemini 3 Pro大放異彩,盡管開源社區已出現 BAGELEmu3 等可喜進展,開源統一多模態基礎模型(UFM)整體仍落后于閉源對手。

今天分享南大&自動化所&北大聯合發表的涵蓋754篇文獻的84頁最新《統一多模態理解與生成綜述:進展與挑戰

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

1. 為什么要“統一”?

傳統路線把“理解”和“生成”拆成兩條賽道:

  • 理解端:CLIP、LLaVA、Qwen-VL 等專做圖像→文本
  • 生成端:Stable Diffusion、Sora、FLUX 等專做文本→圖像/視頻

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-1 三階段演化圖

圖1:從“專才”到“通才”再到“涌現”的三階段演化

痛點

  1. 割裂導致能力天花板:例如“把劇本拍成電影”需要同時理解長文本、生成連續鏡頭,單一路徑無法完成。
  2. 數據/參數冗余:兩套模型重復存儲世界知識,推理時還要級聯,延遲高、誤差累加。

作者引用費曼名言 “What I cannot create, I do not understand”,指出“理解?生成”本就該是互相增強的閉環。

2. 什么叫“統一多模態大模型”(UFM)

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-3 統一任務集合示意

論文給出形式化定義:

  • 任務集合 PowerUniSet = 2^(T_U ∪ T_G) - 2^T_U - 2^T_G即必須同時包含至少一項理解任務 T_U 和一項生成任務 T_G。
  • 模型 M 經過統一預訓練(Unified Pre-training, UP)后,對任意 x∈I ∈ PowerUniSet 都能直接輸出合法結果。

3. 建模范式——三條技術路線

路線

耦合度

代表工作

一句話總結

A. 外掛專家

最松

Visual-ChatGPT、HuggingGPT

LLM 當“調度員”,調用 Stable Diffusion、Whisper 等黑盒 API

B. 模塊化聯合

中等

NExT-GPT、DreamLLM

LLM 輸出 Prompt/特征,外部擴散模型負責解碼

C. 端到端統一

最緊

Emu3、Janus-Pro、Chameleon、BAGEL

所有模態 token 化→同一 Transformer 解碼,無外部模型

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

圖2:700+ 論文的“族譜”,按編碼/解碼/建模/訓練/應用五大維度整理

4. 編碼策略——把圖像/視頻/音頻變成 token

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-7 編碼策略一覽

表示類型

連續

離散

混合

核心思想

CLIP/EVA-CLIP 特征

VQ-VAE/VQGAN 碼本

雙分支:語義+像素

優點

語義對齊好

兼容 LLM 詞表

兩全其美

缺點

無法直接生成

量化損失細節

架構復雜

5. 解碼策略——把 token 變回像素/波形

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-8 解碼策略一覽

策略

代表

關鍵點

外部擴散

Emu2、MetaMorph

LLM 輸出→凍結 SDXL/FLUX 條件,訓練輕量 Adapter

內部擴散

Transfusion、Show-o

擴散頭直接插在 LLM 內部,端到端訓練

離散自回歸

Emu3、Chameleon

純 Next-Token Prediction,無擴散,推理速度快但細節略遜

6. 訓練三板斧——怎么煉成 UFM

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-10 預訓練流程

階段

目標

關鍵技巧

1. 編碼-解碼預訓練

tokenizer 會編會解

耦合訓練 VAE,或凍結 CLIP+訓 Adapter

2. 多模態對齊

把不同模態拉到同一語義空間

對比學習、Q-Former、Linear Projection

3. 統一骨干訓練

讓 LLM 同時會理解和生成

混合目標:NTP + 擴散損失 + 對齊損失

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

7. 微調與對齊——再拔高

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

微調范式

數據

技巧

通用任務微調

LLaVA-Instruct、SEED-Data-Edit

多任務混合,統一 NTP 損失

多任務微調

醫學影像、3D 點云

分階段/分專家,緩解沖突

人類偏好對齊

DPO/GRPO 三元組

理解+生成聯合獎勵,迭代式 SFT→DPO

8. 數據工程——“垃圾進,垃圾出”

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-15 現有數據集全景

論文把數據拆成 4 個來源 + 4 步清洗 + 3 種構造方法,堪稱“工業級配方”:

  1. 來源:公開爬取(LAION-5B)、精品標注(COCO)、私有數據、合成數據(GPT-4o)
  2. 清洗:去重→NSFW→美學打分→CLIPScore 過濾
  3. 構造:
  • 把舊數據集改寫成 <指令,輸入,輸出>
  • 用大模型合成復雜指令
  • 人工精標 + 眾包偏好

9.  Benchmark——如何公平“賽馬”

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-16 Benchmark 地圖

維度

代表 Benchmark

亮點

理解

MMBench、MMMU、MathVista

細分技能,多選+自動判分

生成

GenEval、T2I-CompBench、VE-Bench

組合、編輯、物理一致性

混合

MME-Unify、RealUnify

首次要求“理解?生成”互相促進

10. 落地應用——不止于“文生圖”

750篇文獻,徹底把統一多模態模型講清了-AI.x社區

Fig-17 下游應用示意

領域

典型工作

UFM 價值

機器人

GR-2、SEER

用視頻生成做“世界模型”,零樣本泛化

自動駕駛

DrivingGPT、Epona

聯合預測未來幀+軌跡,省掉冗余感知頭

世界模型

Aether、TesserAct

4D(視頻+深度+位姿)聯合擴散,學物理規律

醫療

LLM-CXR、HealthGPT

一張胸片既能生成報告,也能根據報告還原圖像

通用視覺

VisionLLM v2、VGGT

檢測/分割/深度/3D 重建全 unified,無需專用頭

11. 未來風向標

  1. 建模:AR+Diffusion 混合仍是主線,MoE 路由策略需更細粒度
  2. Tokenizer:朝向“一個碼表搞定所有模態”的 Omni-Tokenizer
  3. 訓練:精細交錯數據 + 強化學習人類偏好,雙任務聯合獎勵函數
  4. 評測:把“理解幫助生成、生成反哺理解”量化,而非單純拼單指標

https://www.techrxiv.org/doi/pdf/10.36227/techrxiv.176289261.16802577
A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Unified

本文轉載自??PaperAgent??????

收藏
回復
舉報
回復
相關推薦
97色在线观看免费视频| 日韩精品一区二区三区视频| 久久久久久91| av大片在线看| 国产一区二区导航在线播放| 成人国产精品一区二区| 国精产品一区一区三区四川| 欧美日韩国产区| 激情成人开心网| 激情久久五月| 成人字幕网zmw| 4438五月综合| 欧美另类videos死尸| 免费福利片在线观看| 国产成人av电影在线观看| 国产精品久久久久影院日本| 国产精品日本一区二区不卡视频 | 久久国产高清| 亚洲最大av网| 精品国产91乱码一区二区三区四区| 亚洲天堂成人在线| 国内小视频在线看| 欧美变态tickling挠脚心| 国产高清视频在线| 色八戒一区二区三区| 国产精品99999| 色激情天天射综合网| 97影院在线观看| 一本色道亚洲精品aⅴ| 亚洲国产资源| 国产成人久久| 99电影网电视剧在线观看| 精品国精品国产自在久国产应用 | 96av在线| 亚洲一二三在线| 懂色aⅴ精品一区二区三区| 日韩视频欧美视频| 国产厕拍一区| 亚洲一区二区自拍| 久久精品99久久久| 久操手机在线视频| 中文字幕久久午夜不卡| 猛男欧美办公室激情在线| 欧美日韩国产一级二级| 自拍视频在线看| 久久免费视频网站| 午夜一区不卡| av免费在线播放网站| 午夜在线成人av| 日本高清在线观看| 99久久国产综合精品色伊| 91网页在线看| 日韩一区二区三区国产| 欧洲福利电影| 一二三四中文字幕| 亚洲成人777| 欧洲一级精品| 国产精品一国产精品最新章节| 久久99国产精品久久| 国产精品久久久久永久免费看| 日韩欧美一区中文| 国内精品久久久久久99蜜桃| 麻豆映画在线观看| 亚洲高清免费观看高清完整版在线观看| 麻豆av在线免费观看| 欧美国产第一页| 日韩经典中文字幕一区| 最近最新中文字幕在线| 久久综合亚洲社区| 日韩福利视频网| 你懂的在线看| 国产日韩亚洲欧美| 久久久久亚洲蜜桃| 中文字幕在线视频网站| 狠狠色伊人亚洲综合网站色| 亚洲午夜羞羞片| 精品人人人人| 黄色aaa级片| 欧美激情小视频| 久久久亚洲欧洲日产国码αv| 女人高潮被爽到呻吟在线观看| 亚洲japanese制服美女| 一本色道久久综合精品竹菊| 欧美日韩一二| 日本大片在线观看| 91精品国产综合久久香蕉的用户体验| 欧美激情在线免费观看| 国产亚洲字幕| 亚洲成熟丰满熟妇高潮xxxxx| 一本一本久久a久久精品牛牛影视| 岛国一区二区在线观看| 国产超碰精品| 冲田杏梨av在线| 高清一区二区三区日本久| 亚洲蜜臀av乱码久久精品蜜桃| 亚洲国产精品免费视频| av免费看大片| 99re视频在线播放| 欧美一区二区三区影视| 国产在线视频不卡二| 9999在线精品视频| 午夜宅男在线视频| 国产在线拍偷自揄拍精品| 成人亚洲一区二区| 国内精品不卡| 国产精品99久久免费黑人人妻| 国产一区二区三区在线视频| 欧美极品xxx| 激情久久久久久久| 亚洲性色av| 五月婷婷导航| 欧美高清性xxxxhdvideosex| 欧美精品制服第一页| 亚洲午夜视频在线| 国产a精品视频| 欧美成人自拍| 国产综合色区在线观看| 美女胸又www又黄的网站| 少妇特黄a一区二区三区| 欧美日韩国产成人在线观看| 在线精品视频免费观看| 91麻豆123| 日韩av网站免费在线| 日韩三级av| 欧美影视资讯| 好吊日视频在线观看| 成视频年人免费看黄网站| 国产成人精品一区二区三区福利| 在线观看亚洲区| 在线成人免费视频| 亚洲高清视频的网址| 久久综合九色综合久久久精品综合 | 欧美精品一卡两卡| 91精品国产欧美日韩| 亚洲精品永久免费| 另类色图亚洲色图| 国产欧美精品久久久| 亚洲图色在线| 免费播放av| 日本一区免费网站| 欧美精品成人| 亚洲欧美经典视频| 亚洲欧美国产精品久久久久久久| 国产精品久久在线观看| 做爰高潮hd色即是空| 国产福利在线| 久久中文字幕av一区二区不卡| 噜噜爱69成人精品| 91在线你懂得| 欧美久久久久久蜜桃| 欧美成人精品xxx| 精品视频一区在线| 制服丝袜影音先锋| 激情视频网站在线播放色| 玖玖精品在线| 久久精品日产第一区二区 | 黄色片在线看| 久久综合给合| 日韩电影一区二区三区| 在线免费观看一区| 久久免费偷拍视频| 狠狠爱成人网| 久久综合九色综合97婷婷女人| 亚洲成av人片在线观看香蕉| 97在线电影| a视频v在线| 免费欧美网站| www欧美成人18+| 亚洲免费视频观看| 久久国产精品免费一区| 嫩草影院永久入口| 精品视频自拍| 久久精品欧美一区二区三区不卡| 欧美v日韩v国产v| 99久久综合狠狠综合久久止| 午夜成人影视| 欧美gay男男猛男无套| 久久久久久久国产精品影院| 国产亚洲欧美视频| 男人插女人视频在线观看| 在线女人免费视频| 日韩高清国产一区在线| 亚洲二区中文字幕| 污视频在线免费观看一区二区三区| 国产特黄在线| 亚洲一区二区三区免费在线观看 | 成人免费乱码大片a毛片软件| 国产精品日本一区二区三区在线| 国产精品99久久久久久似苏梦涵| 伊人精品在线观看| heyzo国产| 亚洲精品网址| xvideos亚洲人网站| 国产对白在线正在播放| 久久99国产精品麻豆| 亚洲男人的天堂网站| 99re国产在线播放| 宅男宅女性影片资源在线1| 男女羞羞在线观看| 老司机午夜精品视频在线观看|