圖像編輯新神器:英偉達(dá)用拍電影思維解決圖像編輯與世界模擬一致性難題
AI圖像編輯領(lǐng)域,編輯前后保持一致性,一直是非常棘手的難題,尤其是物理一致性。
例如:Change the vehicle in the picture to be set in a beach environment(將圖片中的車輛更改為在海灘環(huán)境中)。

FLUX.1 [Dev],OmniGen2,Qwen-Image得到的結(jié)果分別是這樣的:

NVIDIA和多倫多大學(xué)的研究者們提出了一個絕妙的想法:假如我們不把圖像編輯看作是修改一張靜態(tài)圖片,而是看作在拍攝一部只有兩幀的微型電影呢?

這個想法催生了ChronoEdit框架。結(jié)果立馬見效:

ChronoEdit框架將輸入圖像視為電影的第一幀,將編輯后的理想圖像視為最后一幀。
通過這個簡單的視角轉(zhuǎn)換,圖像編輯這個經(jīng)典難題,瞬間變成了一個視頻生成問題。
這使得模型可以借助大規(guī)模視頻生成模型中早已學(xué)到的時間連續(xù)性知識,來確保編輯過程符合物理規(guī)律,讓P圖不再翻車。
圖像編輯的物理學(xué)難題
今天的圖像編輯技術(shù),在生成模型的驅(qū)動下已經(jīng)變得異常強(qiáng)大。我們可以用一句話讓圖片里的白天變?yōu)楹谝梗蛘咦尶諢o一物的桌子上出現(xiàn)一個蛋糕。
但這種強(qiáng)大背后,隱藏著一個深刻的缺陷:物理一致性的缺失。
物理一致性,通俗地講,就是編輯結(jié)果必須尊重現(xiàn)實世界的基本規(guī)律。一個被編輯的物體,應(yīng)當(dāng)保持它原有的核心屬性,比如幾何形狀、材質(zhì)和顏色。更重要的是,編輯所引發(fā)的變化,必須是連貫且合理的。
比如,你要求模型將這輛車向前移動一點,一個缺乏物理常識的模型可能會拉長車身、扭曲輪胎,或者干脆生成一個不合邏輯的影子。它只是在像素層面理解了向前,卻沒有理解移動這個動作背后所蘊含的一整套物理約束。
這些失敗的根源在于,現(xiàn)有方法大多是純粹由數(shù)據(jù)驅(qū)動的。
它們學(xué)習(xí)了海量圖像中的關(guān)聯(lián)性,卻缺乏一種內(nèi)在機(jī)制來強(qiáng)制編輯過程的連續(xù)性。這導(dǎo)致它們很容易產(chǎn)生一些看似合理,實則違反物理定律的漂移編輯。
在娛樂應(yīng)用中,這或許只是個小瑕疵。
但在自動駕駛、機(jī)器人技術(shù)或科學(xué)模擬等嚴(yán)肅領(lǐng)域,物理一致性是不可逾越的紅線。一個錯誤的模擬結(jié)果,可能會直接影響下游系統(tǒng)的決策與安全。
大規(guī)模視頻生成模型的出現(xiàn)帶來了新的曙光。
這些模型在訓(xùn)練中看過了不計其數(shù)的視頻,天生就具備在連續(xù)幀之間保持物體結(jié)構(gòu)和外觀一致的強(qiáng)大能力。這種能力,就是一種內(nèi)隱的時間先驗。
ChronoEdit正是抓住了這一點,它沒有重新發(fā)明輪子,而是巧妙地將視頻模型的這種時間感知能力,嫁接到圖像編輯任務(wù)上,構(gòu)建了一個為物理一致性而生的基礎(chǔ)模型。
將編輯變成一部微型電影
ChronoEdit的核心設(shè)計,可以用一句話概括:將預(yù)訓(xùn)練的圖像到視頻(I2V)模型,重新用于圖像編輯。

這個過程的第一步,是將編輯任務(wù)巧妙地重構(gòu)為一個兩幀視頻生成問題。
當(dāng)用戶提供一張輸入圖像和一條編輯指令時,ChronoEdit并不直接去修改這張圖。它將輸入圖像建模為視頻序列的第0幀,而將期望的輸出圖像建模為序列的第T幀。
通過這種方式,模型的任務(wù)不再是修改,而是預(yù)測中間過程。它需要想象出一個從第0幀到第T幀的合理演變路徑。當(dāng)模型用精心策劃的圖像編輯數(shù)據(jù)進(jìn)行微調(diào)后,這種兩幀的設(shè)定賦予了視頻模型強(qiáng)大的編輯能力,同時完美地保留并利用了其預(yù)訓(xùn)練中獲得的時間先驗,以確保物體保真度。
對于那些對時間連貫性要求極高的世界模擬任務(wù),例如動作編輯(讓這個人舉起手),ChronoEdit更進(jìn)一步,引入了時間推理機(jī)制。
這個機(jī)制讓編輯過程在推理時被顯式地引導(dǎo)。
模型不再是直接從第一幀跳到最后一幀,而是主動地去想象并生成一系列中間過渡幀。這些中間幀就像一個思維草稿,規(guī)劃了編輯應(yīng)該如何一步步展開。
這些中間幀在技術(shù)上被稱為時間推理token。它們與輸入幀、目標(biāo)幀一起,在一個聯(lián)合去噪的過程中被處理。這個過程強(qiáng)迫模型去思考一個物理上可行的變換軌跡,從而將解空間限制在合理范圍內(nèi),最終產(chǎn)生更符合物理規(guī)律的編輯結(jié)果。
具體到技術(shù)實現(xiàn)上,ChronoEdit建立在一種名為整流流(Rectified Flow)的視頻生成模型之上。
這類模型通常使用一個預(yù)訓(xùn)練的變分自編碼器(VAE)將高維的像素視頻壓縮成緊湊的潛在表示。所有核心的訓(xùn)練和推理都在這個低維的潛在空間中進(jìn)行,最后再由解碼器重建為像素視頻。
為了處理時間結(jié)構(gòu),ChronoEdit利用了一種因果視頻VAE。它會獨立編碼第一幀,然后根據(jù)前一幀的潛在信息來壓縮后續(xù)的視頻塊。
當(dāng)處理一個編輯對(輸入圖像c,輸出圖像p)時,ChronoEdit會將它們重新解釋為一個極短的視頻序列。輸入圖像c被編碼為第一個潛在幀zc。而輸出圖像p則被重復(fù)四次,以匹配視頻VAE 4倍的時間壓縮率,然后編碼為潛在幀zp。
這樣就得到了兩個在結(jié)構(gòu)上與視頻模型完全對齊的時間潛在變量。為了讓模型明確感知它們在時間上的分離,ChronoEdit還通過調(diào)整模型的3D分解旋轉(zhuǎn)位置嵌入(RoPE),將輸入圖像錨定在時間步0,將輸出圖像錨定在預(yù)設(shè)的時間步T。
時間推理token的引入,是ChronoEdit超越傳統(tǒng)輸入輸出映射的關(guān)鍵。模型的目標(biāo)不再是單步內(nèi)憑空生成目標(biāo)圖像,因為這往往會導(dǎo)致突兀和不連貫的變化。通過推理中間狀態(tài),模型能更好地保持物體的身份、幾何形狀和物理連貫性。
實踐中,ChronoEdit在代表輸入圖像的zc和代表輸出圖像的zp之間,插入了若干個中間潛在幀。這些幀在初始時被填充為隨機(jī)噪聲,然后與輸出幀的潛在變量zp一同參與去噪過程。它們扮演了中間向?qū)У慕巧瑤椭P退伎汲鲆粭l合理的變換路徑。
這種設(shè)計還帶來一個巨大的優(yōu)勢:訓(xùn)練框架的統(tǒng)一。無論是處理圖像編輯對,還是處理完整的視頻序列,模型都可以用同一種方式進(jìn)行訓(xùn)練。
對于圖像編輯數(shù)據(jù),每一對樣本(輸入圖c,輸出圖p,指令y)都被看作一個兩幀視頻,模型直接學(xué)習(xí)如何根據(jù)指令完成編輯。
對于視頻數(shù)據(jù),其結(jié)構(gòu)與推理token的設(shè)計完全匹配:視頻的第一幀對應(yīng)輸入c,最后一幀對應(yīng)輸出p,所有中間幀則自然地成為時間推理token。
這種設(shè)計讓推理token在推理時成為一個可選項,即便沒有它們,解碼器也能獨立恢復(fù)目標(biāo)幀。而當(dāng)它們存在時,又能為模型提供強(qiáng)大的連貫性轉(zhuǎn)換監(jiān)督。
這種圖像對與視頻的聯(lián)合訓(xùn)練策略,讓ChronoEdit得以兩全其美。它能從海量的圖像對中學(xué)習(xí)到豐富的語義對齊能力(即理解指令),同時又能從視頻數(shù)據(jù)中學(xué)習(xí)到寶貴的時間一致性。
當(dāng)然,要讓模型學(xué)會思考演變過程,就需要給它看足夠多、足夠好的范例。
為此,ChronoEdit團(tuán)隊策劃并生成了一個包含140萬個視頻的大規(guī)模合成數(shù)據(jù)集。這個數(shù)據(jù)集特別強(qiáng)調(diào)將場景動態(tài)與相機(jī)運動解耦,因為在訓(xùn)練中,如果第一幀和最后一幀之間發(fā)生了意外的視角變化,模型很可能會將其誤解為一種編輯效果。
這個精心策劃的視頻語料庫涵蓋了三個互補的類別:
- 靜態(tài)相機(jī)、動態(tài)物體的片段。這類視頻由文本到視頻模型生成,并在提示中特別加入了整個視頻中相機(jī)保持靜止的約束。
- 以自我為中心的駕駛場景。這是世界模擬中的一個關(guān)鍵場景,利用了能夠固定相機(jī)、同時通過邊界框精確控制車輛運動的專用模型生成。
- 動態(tài)相機(jī)、靜態(tài)場景的片段。這類視頻允許精確控制相機(jī)軌跡,同時保持場景內(nèi)容不變。
為了給這些視頻配上相應(yīng)的編輯指令,ChronoEdit使用了一個視覺語言模型(VLM)為每個視頻自動生成描述,總結(jié)從第一幀到最后一幀發(fā)生的變化。
在推理執(zhí)行編輯時,ChronoEdit也設(shè)計了一套高效的兩階段方法。它允許模型從時間推理token中獲益,又不必承擔(dān)生成完整視頻的全部計算開銷。
直覺上,一個生成過程(無論是擴(kuò)散還是流模型)的最初幾個步驟,在最嘈雜的狀態(tài)下,決定了最終結(jié)果的全局結(jié)構(gòu)。
因此,ChronoEdit只在最開始的若干個去噪步驟中加入視頻推理token,讓它們在最關(guān)鍵的時刻發(fā)揮作用。在后續(xù)的去噪步驟中,則省略它們,以在質(zhì)量和計算成本之間取得最佳平衡。
為了進(jìn)一步提速,ChronoEdit還采用了蒸餾技術(shù)。
它使用一種名為DMD的損失函數(shù),訓(xùn)練了一個僅需8步就能完成推理的學(xué)生模型。經(jīng)過蒸餾后,模型在保持高質(zhì)量編輯效果和指令遵循能力的同時,推理速度得到了顯著提升。
現(xiàn)有的圖像編輯基準(zhǔn),大多關(guān)注視覺保真度和指令遵循度,很少有專門評估物理一致性的。為了彌補這一空白,ChronoEdit團(tuán)隊引入了一個名為PBench-Edit的全新基準(zhǔn)。
PBench-Edit源自一個專門用于評估物理世界模型的PBench數(shù)據(jù)集。原數(shù)據(jù)集涵蓋了自動駕駛、機(jī)器人、物理學(xué)和常識推理等多個領(lǐng)域。
PBench-Edit從中精選出代表性的視頻幀,并為它們手工制作并驗證了編輯指令,從而構(gòu)建了一個既多樣化又植根于物理現(xiàn)實的評測集。
與其它偏向于簡單動作的基準(zhǔn)不同,PBench-Edit覆蓋了更廣泛的真實世界交互,如烹飪、駕駛和機(jī)器人操作。
它總共包含了271個高質(zhì)量的圖像編輯對。
評估時,同樣使用GPT-4.1作為裁判,從指令遵循度、編輯質(zhì)量和細(xì)節(jié)保留度三個維度進(jìn)行打分。
用數(shù)據(jù)說話的卓越性能
ChronoEdit在實驗中展現(xiàn)了其強(qiáng)大的能力。模型分為140億參數(shù)的ChronoEdit-14B和20億參數(shù)的ChronoEdit-2B兩個版本。

在通用的圖像編輯基準(zhǔn)ImgEdit上,ChronoEdit-14B(在禁用時間推理以保證公平比較的情況下)獲得了4.42的最高總分,優(yōu)于所有最先進(jìn)的基線模型。
尤其是在需要空間和結(jié)構(gòu)推理的提取、移除等任務(wù)上,其優(yōu)勢尤為明顯。這表明,即便是基礎(chǔ)的圖像視頻聯(lián)合預(yù)訓(xùn)練,也能為模型帶來強(qiáng)大的動態(tài)一致性和場景轉(zhuǎn)換建模能力。
經(jīng)過蒸餾加速的ChronoEdit-14B-Turbo版本,推理速度比原版快了6倍(在兩塊NVIDIA H100 GPU上,每張圖僅需5秒),得分僅略微下降,但仍然大幅超越了同級別的其它模型。
當(dāng)戰(zhàn)場轉(zhuǎn)移到強(qiáng)調(diào)物理一致性的PBench-Edit基準(zhǔn)上時,ChronoEdit的優(yōu)勢變得更加突出。

ChronoEdit-14B獲得了4.43的最高總分。最值得關(guān)注的是動作保真度這一項,它直接反映了模型在執(zhí)行涉及真實世界交互的編輯時,保持物理一致性的能力。在這個維度上,ChronoEdit-14B明顯優(yōu)于其它所有純圖像編輯模型。
當(dāng)開啟了時間推理功能后,ChronoEdit-14B-Think(即會思考的版本)更是將總分提升到了4.53,動作保真度得分也隨之大幅增長。這清晰地證明了顯式時間推理對于理解和執(zhí)行物理編輯的巨大價值。
一個有趣的發(fā)現(xiàn)是,即便在總共50個采樣步中,只在前10步使用時間推理(Nr=10),其性能也與全程使用推理相當(dāng),而計算開銷僅增加了不到5秒。這說明了ChronoEdit兩階段推理策略的有效性。
更令人印象深刻的是,ChronoEdit能夠可視化其思考過程。如果將那些作為中間狀態(tài)的推理token也完全去噪并解碼成圖像,我們就能看到一條完整的推理軌跡。

如圖所示,當(dāng)被要求在長椅上添加一只貓時,模型并沒有直接畫出一只貓。它的推理軌跡顯示:首先,場景中的長椅被合成出來;然后,一只貓從角落出現(xiàn),并以一個合理的跳躍動作登上了長椅。整個過程由一系列連貫的中間狀態(tài)組成,仿佛一部微型動畫。
我們來看看ChronoEdit的編輯效果。






Restore the Winged Victory of Samothrace by adding a realistic classical head and arms
ChronoEdit用一個優(yōu)雅的視角轉(zhuǎn)換,將圖像編輯的物理一致性難題,轉(zhuǎn)化為其擅長的視頻生成問題,并引入時間推理機(jī)制讓模型學(xué)會思考變換過程。
它不僅在通用編輯任務(wù)上達(dá)到了頂尖水平,更在需要物理常識的世界模擬場景中展現(xiàn)了無與倫比的優(yōu)勢。































