Lumina-DiMOO:多模態(tài)擴散語言模型重塑圖像生成與理解
上海人工智能實驗室推出了一款革新的多模態(tài)生成理解一體化的擴散語言模型 ——Lumina-DiMOO。基于離散擴散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模態(tài)任務(wù)之間的壁壘,在同一離散擴散框架下,完成從 文本→圖像、圖像→圖像、圖像→文本的全棧能力閉環(huán)。


- 論文標(biāo)題:Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
- 論文鏈接:arxiv.org/pdf/2510.06308
- GitHub 地址:Alpha-VLLM/Lumina-DiMOO
- 關(guān)鍵詞:多模態(tài)生成與理解統(tǒng)一、擴散語言模型
過去:自回歸生成的瓶頸
從 Chameleon 到 Lumina-mGPT,再到 Janus-Pro—— 主流 “多模態(tài)統(tǒng)一模型”,幾乎都基于 自回歸(AR)架構(gòu)。這些模型的架構(gòu)存在顯著缺陷:
- 生成太慢:逐 token 生成,導(dǎo)致圖像生成通常需要幾分鐘;
- 生成質(zhì)量受限:圖像細(xì)節(jié)的表現(xiàn)力較弱,尤其是在高分辨率生成時,精細(xì)度無法保證;
- 任務(wù)間無法無縫銜接:多模態(tài)的生成和理解任務(wù)往往分開處理,導(dǎo)致模型的通用性和效率受到制約。

然而,Lumina-DiMOO 采用了純離散擴散框架,徹底解決了上述問題。在這個全新的架構(gòu)中,我們通過并行化的雙向注意力機制和靈活的采樣策略,實現(xiàn)了跨多任務(wù)的高效融合,不僅加速了生成過程,還提升了生成質(zhì)量。
現(xiàn)在:擴散語言模型的崛起
Lumina-DiMOO,作為一款全新推出的多模態(tài)擴散語言模型,憑借其創(chuàng)新的離散擴散架構(gòu),不僅在圖像生成和文本生成之間架起了無縫橋梁,還在理解和生成任務(wù)中實現(xiàn)了跨模態(tài)的一體化。與傳統(tǒng)自回歸(AR)模型相比,Lumina-DiMOO 大幅提升了生成速度和精度,成為多模態(tài)領(lǐng)域的技術(shù)突破。
1. 離散擴散架構(gòu):核心創(chuàng)新與優(yōu)勢
Lumina-DiMOO 使用了最新的離散擴散架構(gòu)(Discrete Diffusion Model),通過并行生成和雙向注意力機制,使得圖像生成和理解任務(wù)不再互相獨立,而是能夠在同一個框架中高效運作。這一創(chuàng)新架構(gòu)打破了傳統(tǒng)的生成 - 理解邊界,在一個框架中同時實現(xiàn)文本生成圖像、圖像編輯、風(fēng)格遷移、圖像理解等任務(wù)。
2. 高效生成:并行預(yù)測與加速
與大多數(shù)傳統(tǒng)的自回歸模型不同,Lumina-DiMOO 通過并行生成的方式大大加快了推理過程。通過一次性處理多個 token 的生成任務(wù),Lumina-DiMOO 能夠在每個時間步驟并行預(yù)測,并在圖像生成任務(wù)中從完全 mask 的 token 開始,逐步解碼生成圖像或文本。這種方式不僅加速了生成過程,還有效提升了生成質(zhì)量,確保了任務(wù)間的高效協(xié)同。

3. 雙向注意力機制:深入理解與生成
雙向注意力機制(Bidirectional Attention)是 Lumina-DiMOO 另一個關(guān)鍵的技術(shù)特點。該機制讓模型不僅能夠理解文本的上下文關(guān)系,還能捕捉圖像之間的結(jié)構(gòu)和細(xì)節(jié)。這種跨模態(tài)的注意力機制確保了文本和圖像任務(wù)的高度一致性,同時提升了模型在理解和生成過程中處理多模態(tài)信息的能力。
4. 聯(lián)合優(yōu)化:全局性能提升
Lumina-DiMOO 還采用了全局優(yōu)化策略,在訓(xùn)練過程中通過聯(lián)合損失函數(shù)優(yōu)化整體性能。通過這種方法,Lumina-DiMOO 不僅優(yōu)化了文本生成圖像、圖像編輯、理解等任務(wù)的表現(xiàn),還確保了模型的高效統(tǒng)一和多任務(wù)能力,使其能夠在多個任務(wù)之間無縫切換。
加速采樣:Max-Logit 緩存技術(shù)的革新應(yīng)用
在 Lumina-DiMOO 的推理過程中,Max-Logit 緩存技術(shù)顯著提升了生成效率和速度。該技術(shù)通過緩存那些 “穩(wěn)定” 或 “不容易變化” 的 token,避免了不必要的重復(fù)計算,從而加速了推理過程。具體而言,在生成每個 token 時,模型評估其概率分布,并將高置信度的 token 進行緩存,只有當(dāng) token 變化較大時才重新計算。通過并行推理和高效的緩存機制,Max-Logit 技術(shù)不僅加快了推理速度,還保證了生成質(zhì)量,尤其在高分辨率生成任務(wù)中,能夠保留圖像的細(xì)節(jié)與準(zhǔn)確性。此外,該技術(shù)的引入大幅降低了計算成本,使得 Lumina-DiMOO 在保持高質(zhì)量生成的同時,具備了更高的推理效率和更低的計算開銷。
模型的 “自我演化”:Self-GRPO

更令人驚喜的是,團隊提出了一個全新的自我強化框架 ——Self-GRPO。它把 “圖像生成” 和 “多模態(tài)理解” 整合進一條強化學(xué)習(xí)軌跡,讓模型在生成中學(xué)會理解,在理解中反哺生成。訓(xùn)練過程中,模型會自評答案正確率、計算獎勵、再反向優(yōu)化,從而完成 “生成 - 推理 - 校正” 的閉環(huán)。這意味著 Lumina-DiMOO 已不僅是一個多模態(tài)模型,更像一個具備 自主反思能力的智能體雛形。
成績單:全面 SOTA
Lumina-DiMOO 在多項權(quán)威評測中奪魁:
- UniGenBench(由騰訊混元維護):開源模型第一名
- GenEval:綜合得分 0.88,超越 GPT-4o、BAGEL、Janus-Pro 等頂尖模型
- DPG、OneIG-EN、TIIF:在語義一致性、布局理解、屬性綁定、推理等維度全面領(lǐng)先。
未來展望
Lumina-DiMOO 讓我們再次接近 “原生多模態(tài)智能” 的理想。
它能讀、能寫、能畫、能思考 —— 真正實現(xiàn)從感知到創(chuàng)造的統(tǒng)一閉環(huán)。
正如團隊所言:
“我們希望模型不只是理解世界,更能創(chuàng)造世界。”
—— 來自 Alpha-VLLM 團隊的又一次大膽嘗試。




































