国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

北大、字節、中科院自動化研究所等提出圖像并行生成新范式

人工智能 新聞
北京大學,字節跳動,普林斯頓大學,中國科學院自動化研究所,芝加哥大學提出了讓圖像并行生成的新范式。

讓多模態AI學會思考,反而會把圖畫錯了,這個反直覺的現象揭示了當前思考生成模型的缺陷。

北京大學,字節跳動,普林斯頓大學,中國科學院自動化研究所,芝加哥大學提出了讓圖像并行生成的新范式。

在人工智能的進化圖譜中,讓模型在行動前先思考,曾被視為通向更高智能的必經之路。

大語言模型中的思維鏈(CoT)技術已經無數次證明:通過拆解步驟、顯式推理,模型處理復雜任務的能力會呈指數級上升。

這一邏輯很自然地被遷移到了多模態領域——在生成或編輯圖像之前,讓模型先生成一段文本推理,規劃好要畫什么、怎么改,理論上應該能得到更精準的結果。

然而,該研究發現了一個令人不安的事實:在涉及世界知識推理的復雜指令下,這種先思考、后作畫的模式,反而降低了生成圖像的語義保真度。

問題出在順序二字上。

目前主流的多模態模型,大多采用自回歸(Autoregressive, AR)架構。這種架構就像一條單向流動的流水線:先由文本模塊吐出推理文字,再將這些文字作為上游原料投喂給圖像生成模塊。

這種機制隱含著一個巨大的風險——誤差傳播。

一旦上游的推理文本出現哪怕一絲微小的偏差,比如對背景紋理的描述過于冗長,或者對主體特征的定義稍顯模糊,下游的圖像生成模塊就會拿著錯誤的圖紙全力施工。

看上圖中的案例,用戶要求將山替換為富士山。現有的SOTA模型Bagel雖然開啟了思考模式,但它的推理過程跑偏了,花費大量筆墨去描述背景的碎石紋理。

結果,圖像生成模塊忠實地執行了這一跑偏的指令,最終生成的圖像里根本沒有富士山,只有一堆亂石。

原本用來輔助生成的思考,變成了干擾生成的噪聲。

這一發現動搖了當前多模態研究的一塊基石。

為了系統性地解決這個問題,研究團隊并沒有在舊有的自回歸路線上修修補補,而是推倒重來,提出了一種全新的并行多模態擴散框架——MMaDA-Parallel。

它不再讓文本和圖像排隊通過,而是讓它們在同一個時間維度上并行生長,通過雙向注意力機制實時互校。

這是一種生成哲學的轉變:真正的多模態協同,不是接力跑,而是雙人舞。

診斷新標尺:ParaBench基準的構建邏輯

在解決問題之前,必須先精準地量化問題。

現有的多模態基準測試存在一個盲區:它們通常只看結果,不看過程。

評測標準往往是將最終生成的圖像與初始的提示詞進行比對。這種端到端的評估方式,完全忽略了中間那個至關重要的變量——推理文本。

如果推理文本本身就是錯的,那么圖像生成得再精美也是徒勞;如果推理文本是對的,但圖像沒跟上,那是生成模塊的鍋。混在一起看,永遠找不到病根。

為了剝離出真相,研究團隊構建了ParaBench。

這是一個專門為評估思維感知(Thinking-Aware)生成而設計的診斷級基準。

ParaBench并未追求海量的數據規模,而是追求極致的難度與精度。它包含300個精心設計的提示詞,分為兩大陣營:

  1. 200個編輯任務:涵蓋增加、移除、替換等操作,但不僅限于此,更包含了需要深層邏輯推理的復雜編輯。
  2. 100個生成任務:專注于開放式、創造性的復雜場景合成。

這個基準引入了一個被稱為AI法官的評估機制,利用GPT-4.1從六個細粒度維度進行裁決:

  • 文本維度:文本質量、文本對齊。
  • 圖像維度:圖像一致性、圖像對齊、圖像質量。
  • 核心維度:輸出對齊(Output Alignment)。

輸出對齊是ParaBench的靈魂。

它不看別的,專門盯著模型生成的推理文本和最終圖像看。它要回答的問題是:你畫出來的東西,和你嘴里說的邏輯,是一回事嗎?

利用ParaBench對當前最先進的開源模型Bagel進行體檢,結果驗證了研究團隊的猜想。

這說明,性能的退化不是圖像生成能力的缺失,而是圖文協同的斷裂。

在順序生成的舊范式下,模糊或錯誤的推理就像是給瞎子指路,直接導致了后續生成的災難。

并行擴散:重構時空交互的底層架構

既然順序排隊是萬惡之源,那就讓它們并排走。

MMaDA-Parallel的核心,是基于離散擴散(Discrete Diffusion)的并行架構。

想象一下拼圖。

傳統的自回歸模型拼圖,是先寫好一張說明書(文本),然后按照說明書從左上角開始,一塊一塊地拼出畫面(圖像)。

MMaDA-Parallel的拼圖方式是:說明書和畫面同時出現在桌面上,一開始都是模糊的碎片。在拼湊的過程中,文字碎片會參考圖像碎片的形狀,圖像碎片也會參考文字碎片的含義。

每一秒鐘,文字和圖像都在互相確認、互相調整。

為了實現這種全雙工的交互,MMaDA-Parallel在底層數據表示上做了一個大膽的統一。

它將文本和圖像全部Token化。

文本使用了LLaDA分詞器,圖像使用了MAGVIT-v2量化器。

在模型眼中,無論是描述顏色的單詞Red,還是代表紅色的像素塊,本質上都是離散的數字Token。

這些Token被扔進同一個序列中,形成了一個交錯的隊列。

為了區分身份,模型引入了特殊的標記符:<|task|>定義任務,<|soi|><|eoi|>標定圖像邊界,<|thinkgen|><|thinkedit|>則明確告訴模型,現在是生成模式還是編輯模式。

這種統一表示帶來了一個巨大的優勢:雙向注意力(Bidirectional Attention)。

在傳統的Transformer架構中,注意力掩碼通常是下三角矩陣,意味著現在的Token只能看之前的Token。

而在MMaDA-Parallel中,注意力是全向的。

在去噪的任何一個時間步,文本Token可以看見所有的圖像Token,圖像Token也可以看見所有的文本Token。

這徹底消除了順序生成帶來的暴露偏差(Exposure Bias)。

圖像不再被動地等待文本指令,文本也不再需要憑空臆造畫面細節。兩者在生成過程中互為錨點,共同演進。

為了訓練這個龐大的并行網絡,研究團隊設計了一套精密的訓練目標。

這是一個聯合掩碼Token預測器。

在訓練時,輸入部分保持靜止,只有輸出部分(包括推理文本和目標圖像)會被隨機掩蓋(Mask)。模型的任務是根據上下文,預測出那些被蓋住的Token原本是什么。

這里有一個極具工程智慧的細節:時間步相關的損失權重。

文本和圖像的學習難度是不一樣的。為了平衡兩者的動態,研究團隊給它們分配了不同的權重函數。圖像Token的權重恒定為1,而文本Token的權重被設定為1/t。

這意味著在去噪初期(t較大時),文本的權重較小;隨著去噪接近尾聲(t變小時),文本的權重逐漸增加。

這種動態調整極大地穩定了訓練過程,避免了某一模態主導梯度,確保了模型能同時學會說話和畫畫。

雙調度器,在軌跡中尋找語義共鳴

雖然在架構上實現了并行,但文本和圖像畢竟是兩種屬性截然不同的數據。

文本是高度語義化的,一個詞錯了,整句話的意思可能就變了;圖像是高度冗余的,幾個像素錯了,肉眼可能根本看不出來。強行讓它們用完全相同的節奏去噪,并不是最優解。

MMaDA-Parallel為此引入了雙調度器(Dual Schedulers)機制。

在解碼過程中,模型沿著一條共享的時間軸前進,但在每個時間點,文本和圖像的揭示速度是不同的。

  • 文本調度器:采用全線性揭示策略,結合半自回歸的置信度解碼。這符合文本生成的邏輯性,需要一定的順序感來保證語法的連貫。
  • 圖像調度器:采用余弦揭示策略,結合全局置信度解碼。這符合圖像生成的整體性,往往是先確立大輪廓,再填充細節。

盡管節奏不同,但在每一步反向去噪時,模型都會聯合預測所有當前被掩蓋位置的分布。即便文本只揭示了30%,圖像揭示了50%,已揭示的部分依然可以通過全向注意力機制,為對方未揭示的部分提供線索。

這種設計巧妙地保留了各模態的生成特性,同時在全局層面實現了信息的實時互通。

僅有并行的架構和監督微調(SFT),還不足以達到完美的跨模態對齊。

傳統的強化學習(RL)優化通常只看結果。

模型生成完一張圖,評判給個分,告訴模型好或不好。這種輸出級(Output-level)的反饋太粗糙了。它就像是一個老師,只在期末考試給學生打個分,平時完全不管學生的解題步驟。

對于并行生成而言,真正的魔鬼隱藏在過程之中。

研究團隊在分析微調后的模型時,發現了一個迷人的現象:語義同步(Semantic Synergy)。

當模型被要求將一件襯衫改成彩虹色時,在去噪的中間某個步驟,文本中出現紅、黃、藍這些單詞的瞬間,圖像中對應區域的像素塊也開始呈現出色彩傾向。

這說明,跨模態的對齊不是在最后才發生的,而是在生成的軌跡(Trajectory)中逐步建立的。

基于這一洞察,并行強化學習(ParaRL)應運而生。

ParaRL不做期末考試,它做隨堂測驗。它不再僅僅獎勵最終的成品,而是將獎勵信號滲透到了去噪的每一個步驟中。

這是一個巨大的計算挑戰。如果對每一步都計算獎勵,計算量將是天文數字。ParaRL采用了一種稀疏優化策略。在每次訓練迭代中,它隨機抽取幾個關鍵的時間步(例如s=3),只計算這些時刻的對齊度。

但問題來了:中間步驟生成的往往是半成品,不僅圖像模糊,文本也是殘缺的。如何評價半成品的質量?

研究團隊發現,即使是部分解碼的Token,也蘊含了足夠的語義信息。通過計算這些中間態文本與中間態圖像的語義對齊度(Semantic Alignment),可以直接作為獎勵信號。

為了讓這個信號穩定可用,研究者沒有直接使用原始的CLIP分數(因為方差大且數值不穩定),而是設計了一套基于統計的歸一化方案。

他們先統計訓練數據中CLIP分數的均值和方差,然后將實時計算的分數進行標準化(Standardization),并截斷映射到[0, 1]區間。

這樣一來,模型在生成的每一步都能收到清晰的反饋。

這種密集且即時的獎勵機制,比傳統的稀疏獎勵強大得多。它迫使模型在整個生成軌跡中始終保持圖文一致,徹底根除了說到做不到的頑疾。

15萬條數據,刷新SOTA

沒有高質量的數據,再好的算法也跑不起來。

現有的公開數據集,要么只有圖文對,要么只有簡單的指令,缺乏MMaDA-Parallel所需的推理痕跡(Reasoning Trace)。

為了解決這個問題,研究團隊構建了一個包含15萬(150K)條數據的高質量訓練集。

數據構建的過程本身就是一個工程樣板。他們首先從現有的多個圖像編輯和生成基準中匯集原始數據(輸入圖像、指令、輸出圖像)。然后,利用多模態大模型Qwen-2.5-VL作為老師,逆向生成對應的推理過程。

但這還不夠。生成的推理可能質量參差不齊。團隊實施了嚴格的過濾機制,剔除那些推理邏輯不通或與圖像不符的樣本。最終形成的四元組數據Let <輸入圖像, 指令, 推理痕跡, 輸出圖像>,成為了訓練MMaDA-Parallel的燃料。

在ParaBench基準測試中,MMaDA-Parallel擊敗同是思考模型的Bagel。

最關鍵的指標輸出對齊(Output Alignment),在經過ParaRL優化后達到了59.8分,相比之前的SOTA模型Bagel(52.9分),提升幅度高達6.9%。

更令人印象深刻的是,MMaDA-Parallel是在相對較小的數據規模上達成這一成就的。Bagel的訓練數據量比它大三個數量級。這證明了并行架構和軌跡級優化在數據效率上的碾壓性優勢。

定性對比則更加直觀。

看上圖中的融化蛋糕案例。

指令要求展示蛋糕在烈日下融化。

Bagel模型的推理雖然提到了光影,但生成的圖像僅僅是讓蛋糕表面變亮了一點,看起來像個塑料模型,完全沒有物理形態的改變。因為它無法理解融化這個物理過程在視覺上意味著形狀的坍塌。

而MMaDA-Parallel生成的圖像,蛋糕邊緣呈現出真實的流淌感,巧克力醬順著盤子滑落,光澤感不僅體現了亮度,更體現了液化的質感。

這是因為MMaDA-Parallel的推理文本中,精確地描述了失去結構、邊緣軟化等物理細節,并且這些描述在并行生成的過程中,實時地指導了像素的排列。

再比如枯萎的植物案例。

Bagel生成的植物只是顏色稍微黃了一點,葉子依然挺拔。

MMaDA-Parallel生成的植物,葉片卷曲、下垂,莖部彎折,完美地在視覺上翻譯了缺水這一生物學狀態。

在更考驗邏輯的計數任務中,Bagel經常數不清三個人或兩個鐘面,而MMaDA-Parallel憑借精準的并行對齊,能夠準確地生成指定數量的物體。

這直接得益于其在生成過程中,文本計數與圖像實體生成的實時校驗。

MMaDA-Parallel讓思考與行動不分離。通過摒棄自回歸的順序枷鎖,擁抱并行的擴散架構,并利用ParaRL在生成的每一毫秒中注入語義對齊的獎勵,讓AI告別了想得越多錯得越多。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2015-11-03 11:59:08

戴爾云計算

2021-12-20 10:03:01

自動化人工智能 人臉識別

2024-08-12 08:20:00

自動化研究

2024-12-10 10:35:00

AI自動駕駛

2025-06-24 11:50:37

模型數據開源

2025-07-21 08:51:00

2025-03-11 13:49:20

2025-09-01 08:51:00

2025-10-11 09:20:13

2015-07-24 10:37:43

WOT2015人體運動仿真技術

2021-10-21 15:20:35

智能自動化Science

2025-04-09 09:15:00

數據模型AI

2011-03-11 13:22:16

2023-04-18 10:12:06

模型解碼

2025-12-11 08:46:00

2017-06-08 11:23:24

電子皮膚中科院皮膚

2024-08-06 12:00:00

監督學習視覺

2011-12-06 09:41:23

銳捷網絡信息化

2025-12-12 08:45:00

點贊
收藏

51CTO技術棧公眾號

一区国产精品视频| 欧美在线日韩| 国产精品久久777777| 欧美一区二区三区四区五区六区| 午夜视频在线观看精品中文| 欧美日韩一区二区在线观看| 精品日韩久久久| 国产精品一二三四五| 国产精品一二区| 视频在线一区| 亚洲精品一二区| 成人精品一区| 欧美图片一区二区三区| 97在线观看免费高清视频| 国产精品久久久久三级| 久久精品无码中文字幕| 精品一区二区成人精品| 在线精品日韩| 久久精品久久99精品久久| 视频一区二区三区在线观看| 免费在线亚洲| 亚洲影影院av| 美女久久一区| 亚洲一区二区在线免费观看| 91久久午夜| 欧美精品免费观看二区| 欧美视频第一| 久久亚洲私人国产精品va| 午夜小视频在线| 中文字幕日韩一区| 91.·福利| 亚洲成av人**亚洲成av**| 成人高清免费| 国产日韩精品一区二区三区在线| 久久久999视频| 国内精品伊人久久久久影院对白| 欧美日韩一区二区视频在线 | av理论在线观看| 国产一区二区三区四区福利| 中文字幕人成乱码在线观看 | 欧美aaa在线观看| 国产亚洲欧美激情| 头脑特工队2在线播放| 26uuu国产一区二区三区| 三年中文高清在线观看第6集| 天天干天天草天天| 台湾佬综合网| 日本不卡一区| 日本一区二区三级电影在线观看| 午夜免费看视频| 日韩欧美第一页| 日韩三级影院| 欧美日本亚洲视频| 亚洲91久久| 91视频最新入口| 日本韩国欧美三级| 99亚洲伊人久久精品影院| 国产美女久久久| 国产sm精品调教视频网站| 亚洲一区二区三区四区五区xx| 欧美揉bbbbb揉bbbbb| 99re8这里有精品热视频免费| 日韩免费在线看| 波多野结衣一区二区三区| 999sesese| 69av一区二区三区| 国产网红在线观看| 91情侣在线视频| 亚洲成va人在线观看| 免费在线黄色网址| 久久电影一区二区| 日本网站在线观看一区二区三区| 欧美高清视频一二三区| 女人高潮特级毛片| 中文字幕亚洲欧美一区二区三区 | 亚洲视频精选在线| 福利一区二区| 免费观看中文字幕| 亚洲精品大尺度| 亚洲经典自拍| 色视频在线观看免费| 色多多国产成人永久免费网站| 综合久久久久| 日韩大胆视频| 国产欧美日韩综合一区在线观看 | 91精品国产一区二区三区动漫| 国产精品青草久久| 亚洲午夜精品| 青春草在线视频免费观看| 亚洲国内精品在线| 中文字幕在线资源| 97国产suv精品一区二区62| 2021久久国产精品不只是精品| 色猫猫成人app| 成人影院一区二区三区| 日本护士...精品国| 欧美精品xxx| 一区二区三区中文在线| 在线成人超碰| 不卡av播放| 成年人免费视频观看| 91天堂在线视频| 亚洲欧美日韩天堂一区二区| 中文字幕精品一区二区精品绿巨人| 国产亚洲第一伦理第一区| 老司机午夜在线| 色婷婷综合久久久久中文字幕| 国产精品一二三视频| 亚洲а∨天堂久久精品喷水| 99九九99九九九视频精品| 日本午夜精品一区二区三区电影| 欧美日韩在线精品一区二区三区激情综合| 91色视频在线观看| 亚洲v中文字幕| 精品国产欧美日韩一区二区三区| 国产成人在线一区二区| 久久久久一区| www.av在线播放| 精品国产91亚洲一区二区三区www| 国产日韩一区二区三区在线播放| 女人扒开屁股爽桶30分钟| 欧美高清视频www夜色资源网| 电影天堂国产精品| 国产精品大全| 日韩美女视频一区二区| www国产精品com| 4438x成人网全国最大| 精品在线观看一区二区| 欧美一级高清片| 日韩av二区在线播放| 蜜桃在线一区| 亚洲优女在线| 成人av影视| 欧美一区免费视频| 久久91亚洲精品中文字幕| 五月天网站亚洲| 成人av网在线| 亚洲男同gay网站| 黄网站欧美内射| 国产精品香蕉国产| 亚洲香蕉成视频在线观看| 国产精品视频免费| 丝袜亚洲另类丝袜在线| 要久久爱电视剧全集完整观看 | 91精品啪在线观看麻豆免费| 欧美一区二区三区啪啪| 国产网站一区二区| 日韩欧美高清| 精品欧美午夜寂寞影院| 福利一区二区| 国产欧美日韩| 国产精品亚洲成在人线| 在线国产91| 免费成人高清| 成 年 人 黄 色 大 片大 全| 三上悠亚在线观看二区| 香蕉久久夜色精品国产| 国产一区二区三区探花| 毛片网站在线看| 麻豆传媒视频在线| 黄色网页在线播放| 四虎成人在线视频| 黄色片免费在线观看视频| 国产精品三区四区| 国产精品永久在线| 91亚洲精品在线| 粉嫩av一区二区三区免费观看 | 综合视频免费看| 亚洲一区3d动漫同人无遮挡 | 另类小说一区二区三区| 国产欧美日韩一级| 国产一区二区不卡老阿姨| 亚洲天堂偷拍| 欧美日韩天堂| 国产精品99免费看| 亚洲国产日韩欧美在线| 无码日韩精品一区二区免费| 免费成人结看片| 免费亚洲电影| 秋霞伦理一区| 日本h片在线| 惠美惠精品网| 亚洲高清999| 亚洲区第一页| 亚洲欧美专区| 日韩另类视频| 欧美国产日韩电影| 日韩欧美天堂| 欧美日韩久久| 爱久久·www| 久久久久久久久久久久91| 欧美男女交配视频| 久操视频在线| 精品视频一二| 国产清纯白嫩初高生在线观看91| 综合亚洲深深色噜噜狠狠网站| 欧美系列一区二区| 欧美国产日韩一区| 国产精品国模大尺度私拍| 黄网免费视频|