讓AI像人類畫家一樣邊畫邊想,港中文&美團(tuán)讓模型「走一步看一步」
在文生圖(Text-to-Image)和視頻生成領(lǐng)域,以FLUX.1、Emu3為代表的擴(kuò)散模型與自回歸模型已經(jīng)能生成極其逼真的畫面。
但當(dāng)你要求模型處理復(fù)雜的空間關(guān)系、多物體交互或精準(zhǔn)的數(shù)量控制時(shí),它們往往會“露怯”:不是把貓畫到了窗戶外面,就是把三個(gè)蘋果畫成了四個(gè)。

為了解決這個(gè)問題,學(xué)術(shù)界此前主要有兩條路:
一條是“謀定而后動”(Think-before-Generation),即在畫第一筆之前,先寫好詳細(xì)的布局計(jì)劃。但這就像讓畫家在動筆前必須把每一筆都想得清清楚楚,一旦開畫就無法更改,缺乏靈活性。
另一條是“亡羊補(bǔ)牢”(Think-after-Generation),即先把圖畫完,再通過多輪對話來挑錯(cuò)、修改。這雖然有效,但往往意味著巨大的推理開銷和漫長的等待時(shí)間。
那么,有沒有一種方法,能讓模型像人類畫家一樣,在作畫的過程中停下來看一眼,既能審視剛才畫得對不對,又能為下一筆做好規(guī)劃?
近日,來自香港中文大學(xué)、美團(tuán)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的范式——Thinking-while-Generating(TwiG)。這是首個(gè)在單一生成軌跡中、以局部區(qū)域?yàn)榱6龋瑢⑽谋就评砼c視覺生成深度交織(Interleave)的框架。

什么是Thinking-while-Generating?
如果說之前的視覺生成是“一口氣跑到底”,TwiG則更像是一種“間歇性思考”。
研究團(tuán)隊(duì)受到大語言模型(LLM)中思維鏈(Chain-of-Thought)的啟發(fā),但他們反其道而行之:不再是用圖片輔助推理,而是用推理來引導(dǎo)作畫。
在TwiG的框架下,視覺生成不再是一個(gè)黑盒的連續(xù)過程,而是被拆解為“生成-思考-再生成”的循環(huán)。模型會在繪制過程中多次“暫停”,插入一段文本推理(Thought),用于總結(jié)當(dāng)前的視覺狀態(tài),并指導(dǎo)接下來的生成。
為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)將TwiG框架拆解為三個(gè)核心維度:
1. When to Think(何時(shí)思考):模型首先會根據(jù)用戶的Prompt(提示詞),規(guī)劃出一個(gè)“思維時(shí)間表”。研究發(fā)現(xiàn),將畫面生成過程拆解為3個(gè)階段效果最佳,這恰好符合圖像通常包含“上部背景、主體內(nèi)容、下部背景”的語義結(jié)構(gòu)。
2. What to Say(思考什么):在每個(gè)暫停點(diǎn),模型會生成一段“思維鏈”。這段文本不僅承接了上文的邏輯,更像是一個(gè)微型的路書,專門指導(dǎo)接下來的局部區(qū)域該怎么畫。這種細(xì)粒度的引導(dǎo),比那種“一句Prompt走天下”的方式要精準(zhǔn)得多。
3. How to Refine(如何修正):在畫完一個(gè)局部后,模型會立刻進(jìn)行自我批判(Self-Reflection)。如果發(fā)現(xiàn)畫歪了或者顏色不對,它會立刻觸發(fā)“重畫”機(jī)制,只修正當(dāng)前的局部,而不需要推倒重來。

實(shí)證研究:從Zero-Shot到SFT到RL
為了驗(yàn)證這一范式的潛力,研究團(tuán)隊(duì)在統(tǒng)一多模態(tài)模型(如Janus-Pro)上進(jìn)行了層層遞進(jìn)的實(shí)驗(yàn)。
Zero-Shot潛力驚人
僅僅通過精心設(shè)計(jì)的Prompt,而不需要任何參數(shù)更新,模型就已經(jīng)展現(xiàn)出了強(qiáng)大的“邊畫邊想”能力。
在T2I-CompBench基準(zhǔn)測試中,Zero-Shot版的TwiG(TwiG-ZS)在屬性綁定、空間關(guān)系等多個(gè)維度上顯著超越了基準(zhǔn)模型。
結(jié)果表明,在合適的interleave約束與提示下,現(xiàn)有多模態(tài)模型已具備一定的在生成過程中進(jìn)行推理的潛力。
SFT提升穩(wěn)定性
團(tuán)隊(duì)進(jìn)一步構(gòu)建了包含50K數(shù)據(jù)的高質(zhì)量數(shù)據(jù)集TwiG-50K,對模型進(jìn)行監(jiān)督微調(diào)(SFT)。結(jié)果顯示,SFT有效減少了模型“胡思亂想”產(chǎn)生的幻覺,讓生成的思維鏈更加簡練、可控。
RL突破上限
團(tuán)隊(duì)采用了針對TwiG優(yōu)化的GRPO策略(Group Relative Policy Optimization),讓模型在“何時(shí)思考、思考什么、如何修正”的策略上進(jìn)行自我博弈和進(jìn)化。
實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過RL訓(xùn)練的TwiG-RL,在T2I-CompBench++的多個(gè)關(guān)鍵組合與空間指標(biāo)上,展現(xiàn)出與Emu3、FLUX.1等模型具有競爭力、甚至在部分維度上更優(yōu)的表現(xiàn)。


TwiG的提出,不僅是一種技術(shù)上的優(yōu)化,更是一種觀念上的轉(zhuǎn)變。它試圖打破視覺生成模型的“黑盒”屬性,通過引入可讀的文本推理,讓生成過程變得透明、可控且具有邏輯性。
研究團(tuán)隊(duì)的結(jié)論可以總結(jié)為以下幾點(diǎn):
1. 生成需要邏輯:單純的像素概率預(yù)測難以處理復(fù)雜的邏輯約束,引入顯式的文本推理是必經(jīng)之路。
2. 修正優(yōu)于重繪:相比于畫完再改的“大動干戈”,在生成過程中進(jìn)行局部的即時(shí)修正是更高效的策略。
3. RL是關(guān)鍵:強(qiáng)化學(xué)習(xí)不僅能優(yōu)化最終的圖像質(zhì)量,更能教會模型如何思考,是挖掘多模態(tài)模型推理潛力的關(guān)鍵鑰匙。
目前的TwiG中的具體實(shí)現(xiàn)與實(shí)驗(yàn)驗(yàn)證主要基于自回歸ULM(如Janus-Pro),但框架在設(shè)計(jì)上對擴(kuò)散模型同樣兼容。這種“邊生成邊思考”的范式有望擴(kuò)展到視頻生成、3D建模等更復(fù)雜的領(lǐng)域,為通往真正的通用視覺智能提供新的拼圖。
論文題目:Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
論文鏈接:https://arxiv.org/abs/2511.16671
項(xiàng)目主頁:https://think-while-gen.github.io

























