国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”

發布于 2025-11-18 09:26
瀏覽
0收藏

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

文章鏈接:https://arxiv.org/pdf/2511.09611 

代碼鏈接:https://github.com/tyfeld/MMaDA-Parallel 

亮點直擊

  1. 深入的基準測試與分析:ParaBench,一個新的基準測試,旨在系統性地評估“思考感知”型圖像生成與編輯任務。它不僅關注最終生成的圖像和文本的質量,更核心的是評估兩者之間的對齊程度。
  2. 并行的多模態擴散框架:提出了一個純粹基于離散擴散的并行框架,用于“思考感知”型的圖像編輯與生成。該框架允許文本和圖像兩種模態在每一個去噪步驟中進行雙向的注意力交互,從而有效緩解了自回歸(AR)順序生成流程中固有的錯誤累積問題。
  3. 并行強化學習(ParaRL):引入了一種新穎的并行強化學習策略 ParaRL。該方法沿著整個去噪軌跡分配語義獎勵,而不是僅僅獎勵最終結果,從而進一步增強了輸出模態之間的一致性和整體性能。
  4. 全面的評估與最先進的對齊效果:通過廣泛的實驗,本文驗證了該框架的有效性。在 ParaBench 基準測試中,與現有技術(SOTA)模型 Bagel 相比,本工作在“輸出對齊”指標上取得了 6.9% 的顯著提升,同時在單模態指標上保持了相當的性能,為“思考感知”型圖像合成建立了一個更穩健的范式。

解決的問題

在“思考感知”型的生成任務中,模型會先生成一步推理(即“思考過程”),然后基于這個推理來生成或編輯圖像。盡管這種方法在很多情況下能提升效果,但本文發現了一個關鍵的失敗模式:在某些復雜任務中,預先進行的推理反而會導致最終圖像的語義保真度下降

這個問題源于現有方法大多采用順序、自回歸的生成流程。在這種流程中,推理文本的任何模糊、不準確或錯誤都會被傳遞并放大到后續的圖像生成階段,導致最終生成的圖像與用戶的核心指令產生偏差。現有的評估基準只關注最終圖像,忽略了中間推理步驟的質量及其與最終圖像的對齊性,因此無法定位和解決這一問題。

提出的方案

為了解決上述問題,提出了一個并行的多模態擴散框架 MMaDA-Parallel,并輔以一種新穎的訓練策略 ParaRL

  1. MMaDA-Parallel 框架
  • 并行生成:與先生成文本再生成圖像的順序模式不同,該框架讓推理文本和目標圖像在統一的擴散過程中同時并行地生成。
  • 雙向交互:在每個去噪步驟中,文本和圖像的 token 之間都可以進行雙向的注意力交互。這意味著文本的生成可以隨時參考正在形成的圖像特征,反之亦然。這種持續的跨模態“協商”機制避免了單向的錯誤傳播。
  1. 并行強化學習(ParaRL)
  • 軌跡級優化:傳統的強化學習只在生成過程的最后一步(即最終輸出)計算獎勵。ParaRL 的創新之處在于,它在去噪過程的多個中間步驟都計算獎勵信號。
  • 語義對齊獎勵:獎勵信號直接來源于中間步驟生成的文本和圖像之間的語義對齊度(例如,通過 CLIP 分數衡量)。通過在整個生成軌跡上持續強化這種對齊,模型能夠學會生成內部一致性更強的多模態內容。

應用的技術

  1. 離散擴散模型(Discrete Diffusion Models):框架的基礎。文本(通過 LLaDA tokenizer)和圖像(通過 MAGVIT-v2 quantizer)都被統一表示為離散的 token 序列,使得單一的擴散模型可以同時處理兩種模態。
  2. 交錯序列與雙向注意力(Interleaved Sequence & Bidirectional Attention):將輸入和輸出的文本與圖像 token 排列在一個單一的序列中,并使用特殊標記(sentinels)分隔。這使得模型可以在一個統一的上下文中進行全面的雙向跨模態注意力計算。
  3. 并行去噪與雙重調度器(Parallel Denoising & Dual Schedulers):在解碼(采樣)過程中,模型在一個共享的時間軸上并行去噪。但針對文本和圖像兩種模態,分別采用了不同的掩碼調度器(masking schedulers)——文本采用線性揭示調度,圖像采用余弦揭示調度——以適應它們各自的生成特性。
  4. 基于 GRPO 的強化學習:ParaRL 的實現基于 Group Relative Policy Optimization (GRPO) 目標函數,并對其進行了調整以適應擴散模型的非自回歸特性和軌跡級獎勵的設定。獎勵函數基于歸一化后的 CLIP 分數,以確保訓練的穩定性。

達到的效果

  1. 顯著提升跨模態對齊性:在ParaBench 基準上,MMaDA-Parallel(結合 ParaRL)在所有開源模型中取得了最高的“輸出對齊”(Output Alignment)分數(59.8%),相比之前的 SOTA 模型 Bagel(52.9%)提升了 6.9%。
  2. 保持高質量的單模態輸出:在提升對齊性的同時,模型在文本質量和圖像質量等單模態指標上與 Bagel 表現相當,盡管 Bagel 的訓練數據量要大得多。
  3. 驗證了并行框架與軌跡優化的優越性:消融實驗證明:
  • 與順序生成基線相比,并行解碼能顯著提高輸出對齊性。
  • 與只在最終輸出應用獎勵的傳統強化學習相比,本文提出的軌跡級優化(ParaRL)能帶來更穩定和更顯著的性能增益。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

圖 2:MMaDA-Parallel 支持并行、感知思維的圖像編輯和生成。與 Bagel 相比,MMaDA-Parallel 的推理質量更高,生成的文本和圖像輸出之間的一致性也更強。

MMaDA-Parallel

關于“思考感知”型合成的發現與基準測試

為了研究預生成推理是否真正能提升性能,本文在圖像編輯任務上進行了一項對照研究,因為這類任務比單純的圖像合成提供了更清晰的、基于指令的評估。從已有的基準測試中采樣輸入,并使用 Bagel——一個支持“思考感知”型生成的先進開源統一模型——在開啟和關閉“思考”功能兩種模式下生成成對的輸出。在圖 1(c) 和表 1 中報告了在 Kris-Bench上的平均編輯評估指標。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

圖 1:順序與并行思維感知圖像合成。(a) 順序生成(Bagel、GPT4o)可能存在推理模糊或錯誤的問題。(b) 平行生成可在每個去噪步驟中調整文本和圖像,從而減少幻覺和錯誤。(c) 定量比較顯示推理會降低某些類別的性能。(d) 較差的類別也表現出較弱的推理-圖像對齊,突出了加強跨模態對齊的必要性。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

發現。雖然推理步驟在大多數任務上提升了性能,但也出現了一個顯著的反常趨勢:在相當一部分(約 23%)的案例中,性能反而下降了,尤其是在復雜的組合編輯任務中。更深入的分析表明,這些失敗通常源于低質量或模糊的推理文本,這些文本誤導了圖像生成過程。這暴露了現有評估協議中的一個關鍵缺陷:它們只評估最終的圖像,卻忽略了作為另一種生成模態的中間推理的質量。


混合模態的基準測試。這一分析揭示了當前評估范式的一個根本局限性:現有的基準只評估圖像,忽略了推理本身的質量及其與圖像的一致性。為了解決這一差距,本文引入了 ParaBench,這是一個專為全面評估“思考感知”型圖像合成而設計的新基準。ParaBench 包含 300 個具有挑戰性的提示,其中 200 個用于編輯,100 個用于生成。編輯提示經過精心策劃,用以測試廣泛的能力,不僅涵蓋常規操作(如添加、移除、替換),還包括需要推理的復雜任務。100 個生成提示則專注于復雜場景的開放式創意合成。本文使用 GPT-4.1 在六個細粒度維度上對模型在 ParaBench 上的表現進行評估:對于文本輸出,評估文本質量文本對齊;對于視覺輸出,評估圖像質量圖像對齊圖像一致性;最后,評估兩者間的整體輸出對齊


為了展示 ParaBench 的診斷能力,將其應用于一個代表性的基線模型 Bagel。雖然完整的量化結果在附錄 A 中呈現,但表 1 通過關注兩個關鍵指標——文本質量輸出對齊——突顯了一個重要發現。結果顯示,推理步驟的質量與最終性能之間存在明確的相關性。值得注意的是,那些表現下降的類別,其推理質量和推理-圖像協同性也同樣遭受了顯著的下降。這種模式強烈表明,糟糕的推理不僅未能提供有益的指導,反而主動地誤導了生成過程,從而驗證了明確提升文本與圖像生成協同性的必要性。


關于并行多模態擴散的動機。本文的基準測試結果揭示了當前“思考感知”型生成的一個關鍵限制:順序生成范式(即推理先于圖像合成)創建了一種剛性的依賴關系,這可能傳播錯誤并限制跨模態協同。當推理質量下降時,它會直接損害后續的圖像生成,正如在空間和時間編輯任務中觀察到的相關性能下降所證明的那樣。為了解決這個根本問題,本文提出了一個并行的統一多模態擴散框架,該框架能夠同時生成推理文本和圖像,從而促進真正的多模態協作,并消除順序方法中固有的錯誤傳播。

基礎算法與架構

離散擴散模型已在圖像和文本生成任務中展現出強大的性能。基于統一的離散擴散視角,MMaDA證明了單一的擴散框架可以聯合建模多種模態;然而,其解碼過程在不同模態間仍然是順序的。為了克服這一限制,本文提出了一個并行的多模態擴散框架,該框架:(i) 將所有模態表示為離散的 token,(ii) 將它們排列在一個帶有雙向注意力的交錯序列中,以及 (iii) 采用一個跨模態共享的單一掩碼預測器,從而實現文本和圖像的同步去噪。該框架的概覽如圖 3 所示。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

圖 3:并行生成架構:在(a)訓練期間,圖像和文本響應被屏蔽,并使用統一屏蔽預測器并行預測,屏蔽令牌似然目標對其進行了優化。在(b)采樣期間,模型執行并行解碼,聯合生成圖像和文本響應,從而實現高效的多模態響應生成。



交錯的離散序列布局。遵循 MMaDA 框架,本文在一個統一的離散 token 空間內處理文本和圖像。具體來說,本文使用 LLaDA tokenizer對文本進行分詞,并使用一個預訓練的 MAGVIT-v2量化器將圖像編碼為離散視覺 token 網格。這些被 token 化的模態隨后被序列化為一個單一的交錯序列,使用明確的分隔符(sentinels)和任務標簽來實現完全的雙向跨模態注意力:

輸入: <|task|><|soi|>[img]<|eoi|><|bos|>[text]<|eos|>
輸出: <|soi|>[output img]<|eoi|><|bos|>[output text]<|eos|>

在訓練期間,本文將輸入和輸出模板拼接成一個單一序列,允許模型在一個統一的上下文中從輸出關注到輸入。任務 token ??<|task|>??? 根據不同場景被實例化為不同形式,??<|thinkgen|>??? 用于“思考感知”型生成,??<|thinkedit|>?? 用于“思考感知”型編輯。這種單序列設計消除了自回歸跨模態流程所引入的順序不對稱性和曝光偏差。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

使用并行強化學習進行后訓練

用于并行合成的監督式微調。本文方法中的一個關鍵挑戰是,現有的生成和編輯數據集缺乏并行合成框架所需的推理軌跡。為了解決這個問題,本文首先通過聚合來自不同來源的樣本來構建一個合適的訓練數據集。對于每個包含輸入圖像(用于編輯任務)、指令和最終輸出圖像的樣本,本文使用一個多模態大語言模型(在本文的實現中為 Qwen-2.5-VL)來生成相應的推理軌跡。關于數據集構建過程的更多細節,包括來源和類別,詳見附錄 F。然后,本文使用這個數據集對 MMaDA進行監督式微調。這個過程將其改造為一個能夠執行“思考感知”型合成的并行變體,其中推理和生成是同時發生的。


去噪軌跡上的協同效應。在分析微調后模型的生成結果時,本文觀察到某些語義概念在中間的去噪步驟中,會同步地出現在文本和圖像中。如圖 5 所示,當任務是把一件襯衫變成“鮮艷的彩虹色”時,具體的顏色詞匯和它們對應的視覺特征會在同一個時間步出現。這一觀察引出了一個關鍵洞見:跨模態對齊并非一個終點現象,而是在整個生成軌跡中逐步建立的。這意味著,對這些中間步驟施加監督,而不僅僅是最終輸出,可以進一步改善這種對齊。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

圖 5:抽樣的協同作用。根據提示"將藍色襯衫換成鮮艷的彩虹色",文字和圖像中的特定顏色解碼在同一步驟中出現


使用軌跡優化的并行強化學習。基于這一洞見,本文進一步引入了并行強化學習(ParaRL),這是一種新穎的訓練范式,它直接利用了這種中間步驟的跨模態協同效應。ParaRL 不僅僅獎勵最終的輸出,而是將在每個去噪步驟中文本和圖像 token 之間的對齊度作為密集的獎勵信號。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

軌跡獎勵設計。在典型的軌跡級優化框架中,通常需要一個訓練良好的過程獎勵模型(PRM)或價值函數,因為中間的部分輸出通常缺乏足夠的語義信息來進行可靠的評估。令人驚訝的是,在本文的并行文圖生成設置中,本文發現中間的片段已經具有語義意義。例如,即使是部分解碼的文本 token 通常也足以揭示語義線索,從而可以計算與同時生成的圖像內容的對齊度,如圖 4 所示。這一觀察使本文能夠繞過對專用 PRM 的需求:本文直接使用文本和圖像之間的語義對齊作為獎勵信號。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

圖 4:我們提出的并行強化學習(ParaRL)概述。ParaRL 并非只對最終去噪輸出進行操作,而是沿著整個去噪軌跡引入獎勵信號,在整個生成過程中持續強化語義一致性。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

實驗

本文在自建的 ParaBench 基準上進行了主要評估,并使用 GPT-4.1 作為“裁判”來評估六個細粒度指標。MMaDA-Parallel 與多個業界領先模型進行了比較,包括 Bagel、GPT-4o、Gemini-2.5 等。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

主要結果: 如表 2 所示,MMaDA-Parallel 在所有開源模型中取得了最高的輸出對齊分數,驗證了其并行解碼和軌跡級優化的有效性。盡管訓練數據量遠小于 Bagel,MMaDA-Parallel 在通用的文本和圖像質量上仍能與之匹敵。與頂尖的閉源模型(如 GPT-4o)相比,本工作顯著縮小了在對齊指標上的差距,展示了卓越的數據效率。此外,ParaRL 階段一致地提升了輸出的文圖一致性,表明軌跡級優化有效地加強了整個生成過程中的跨模態基礎。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

關鍵貢獻分析: 本文通過消融實驗回答了兩個核心研究問題:

  1. 并行解碼是否優于順序解碼?實驗(表 3)表明,本文的并行框架在關鍵的對齊指標上顯著優于順序生成基線,驗證了并行、交互式解碼對于減少錯誤傳播和產生連貫的多模態輸出至關重要。
  2. 軌跡級微調是否優于輸出級微調?實驗(表 4)顯示,與僅在最終輸出計算獎勵的傳統 RL 相比,本文提出的 ParaRL(軌跡級優化)在文圖一致性和輸出對齊方面帶來了更顯著的增益,并且訓練動態更穩定。進一步分析(表 5)發現,在軌跡中采樣 3 個步驟(s=3)進行獎勵計算,是在性能和效率之間的最佳平衡點。

文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”-AI.x社區

總結

本工作研究了一個關鍵現象,即順序的“思考感知”型模型在處理復雜任務時,可能會反常地出現性能下降。本文使用自行提出的 ParaBench 基準進行了深入分析,該基準獨特地評估了兩種輸出模態,并發現性能下降與生成模態之間的對齊度不佳有很強的相關性。為了解決這個問題,提出了一個通過監督式微調訓練的并行多模態擴散框架,并利用并行強化學習(ParaRL)——一種沿著整個去噪軌跡應用獎勵的新穎方法——對其進行進一步優化。實驗驗證了本文的方法顯著改善了跨模態對齊和語義一致性,為“思考感知”型圖像合成建立了一個更加穩健的范式。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/lwczPPuOaDJpeEgccZ6TNA??


收藏
回復
舉報
回復
相關推薦
888av在线| 欧美自拍偷拍| 成人欧美一区二区三区1314| 国外成人免费视频| 日韩色淫视频| 欧美日韩成人激情| 99青春婷婷视频| 国产成人午夜高潮毛片| 国产精品免费一区二区| 免费成人三级| 中文字幕日韩精品有码视频| 国产视频二区在线观看| 久久久三级国产网站| 视频一区二区综合| 欧美电影免费观看高清| 久久国产精品偷| 巨茎人妖videos另类| 色偷偷成人一区二区三区91| 国产野外作爱视频播放| 国产福利不卡视频| 欧美一二三四五区| 欧美激情日韩| 国产成人精品一区| 日本一区二区三区播放| 国产亚洲精品久久久| 久久电影网站| 日韩一级免费观看| av在线免费观看网| 午夜视频在线观看一区| 69国产精品视频| 国产精品色在线观看| 久久久999免费视频| 粉嫩绯色av一区二区在线观看| 日本精品一区二区三区视频| 国内精品嫩模av私拍在线观看| 国产成人久久久精品一区| 综合成人在线| 欧美精品在线极品| 精品三级国产| 久久精品国产免费观看| 欧美日韩卡一| 日韩视频在线观看免费| 亚洲欧美久久精品| y97精品国产97久久久久久| 成人软件在线观看| 亚洲人成电影网站色| 午夜不卡影院| 日韩成人在线播放| 麻豆免费版在线观看| 亚洲精品国精品久久99热一| 国产在线xxx| 日韩av在线免费观看| 深夜成人福利| 久久精品国产免费观看| 都市激情久久| 国产精品国产三级国产aⅴ浪潮| 欧美亚洲国产精品久久| 亚洲一区久久久| 一本一本久久| 一区一区视频| 99久久精品费精品国产一区二区| 免费在线观看毛片网站| 国产精品久久网站| 神马亚洲视频| 欧美一级精品大片| 日本欧美日韩| 国模精品系列视频| 黑人操亚洲人| 精品国产免费人成电影在线观...| 国产女优一区| 99re6这里有精品热视频| 91丨porny丨首页| 国产特级毛片| 欧美日韩精品三区| 黄色激情在线播放| 欧美激情第三页| 久久免费av| 日本欧洲国产一区二区| 成人免费视频caoporn| 成人影院一区二区三区| 在线观看日韩av先锋影音电影院| 青青草视频在线免费直播| 国产香蕉一区二区三区在线视频| 成人在线视频国产| 成人精品一区二区三区电影免费| 国产日韩专区| 国模吧无码一区二区三区| 亚洲一卡二卡三卡四卡五卡| 美女黄视频在线观看| 色噜噜狠狠狠综合曰曰曰88av | 国产精一品亚洲二区在线视频| 日本午夜激情视频| 亚洲国产精品一区二区尤物区| 国产福利视频在线观看| 日韩有码片在线观看| 国产精品99一区二区三| 亚洲成人动漫在线| 亚洲成人一区在线| 波多野结衣久久精品| 国产精品狼人色视频一区| 美女视频网站黄色亚洲| 人与动性xxxxx免费视频| 日韩av网址在线| 久久网站免费观看| 国产精品va在线观看无码| 欧美三级欧美成人高清www| 欧美国产大片| 成人免费在线看片| 国产欧美视频一区二区三区| 2021av在线| 欧美在线观看网址综合| 男女性色大片免费观看一区二区| 免费一级电影| 伊人久久久久久久久久久| 国产精品porn| 妞干网免费视频| 国产一区二区免费| 精品动漫av| 男人免费av| 中文字幕av一区二区三区谷原希美| 黄色精品免费| jizz国产| 大胆人体色综合| 美女精品自拍一二三四| 国内精品在线视频| 国产精品爱啪在线线免费观看| 北岛玲一区二区三区四区| xvideos国产在线视频| 亚洲最大的免费| 亚洲一区二区偷拍精品| 国产ts一区| 免费欧美一级视频| 国产午夜精品全部视频在线播放| 亚洲在线播放| 国产在线免费观看| 国产精品美女久久久免费| 久久久久久99久久久精品网站| 性欧美又大又长又硬| 欧美久久久久久一卡四| 色婷婷综合五月| 精品国内自产拍在线观看视频 | 亚洲视频专区在线| 男女精品视频| 国产尤物视频在线| 国产精品xxx视频| 亚洲免费成人av| 久久影视三级福利片| 国产精品少妇在线视频| 最好看的2019年中文视频| 国产精品亚洲成人| 国产高潮在线| 亚洲高清精品中出| 日韩视频一区二区三区| 亚洲麻豆一区| 91福利在线视频| 国产一区国产精品| 欧美久久久久免费| 在线激情网站| 最新中文在线视频| 亚洲成人精品久久| 日韩高清在线不卡| 超碰在线caoporn| 日本精品国语自产拍在线观看| 精品国产精品自拍| 国产精品亚洲片在线播放| 三上悠亚一区二区三区| 国产精品久久91| 精品久久久久久久久中文字幕| 久久一区91| 狠狠色伊人亚洲综合网站l| 91九色对白| 日韩一区二区三免费高清| 免费美女久久99| 色老太综合网| 久草精品在线播放| 国产精品99久久久久久www| 一区二区三区国产| 亚洲欧美一区在线| 天堂av最新在线| 91传媒免费视频| 久久久久久这里只有精品| 亚洲一二三四在线观看| 亚洲高清av| 松下纱荣子在线观看| 成熟老妇女视频| 国产精品福利片| 7777精品伊人久久久大香线蕉超级流畅 | 91成人短视频在线观看| 国产裸体免费无遮挡| 日本电影亚洲天堂| 色八戒一区二区三区| 视频一区视频二区中文| av久久网站| 国产精品网址在线| 51色欧美片视频在线观看| 色综合久久久久无码专区| 亚洲女同av| av成人毛片| 国产精品一区免费在线观看| 欧美二区视频|