圖像編輯新神器：英偉達(dá)用拍電影思維解決圖像編輯與世界模擬一致性難題

2025-11-14 09:30:12

人工智能新聞

NVIDIA和多倫多大學(xué)的研究者們提出了一個絕妙的想法：假如我們不把圖像編輯看作是修改一張靜態(tài)圖片，而是看作在拍攝一部只有兩幀的微型電影呢？

AI圖像編輯領(lǐng)域，編輯前后保持一致性，一直是非常棘手的難題，尤其是物理一致性。

例如：Change the vehicle in the picture to be set in a beach environment（將圖片中的車輛更改為在海灘環(huán)境中）。

FLUX.1 [Dev]，OmniGen2，Qwen-Image得到的結(jié)果分別是這樣的：

這個想法催生了ChronoEdit框架。結(jié)果立馬見效：

ChronoEdit框架將輸入圖像視為電影的第一幀，將編輯后的理想圖像視為最后一幀。

通過這個簡單的視角轉(zhuǎn)換，圖像編輯這個經(jīng)典難題，瞬間變成了一個視頻生成問題。

這使得模型可以借助大規(guī)模視頻生成模型中早已學(xué)到的時間連續(xù)性知識，來確保編輯過程符合物理規(guī)律，讓P圖不再翻車。

圖像編輯的物理學(xué)難題

今天的圖像編輯技術(shù)，在生成模型的驅(qū)動下已經(jīng)變得異常強(qiáng)大。我們可以用一句話讓圖片里的白天變?yōu)楹谝梗蛘咦尶諢o一物的桌子上出現(xiàn)一個蛋糕。

但這種強(qiáng)大背后，隱藏著一個深刻的缺陷：物理一致性的缺失。

物理一致性，通俗地講，就是編輯結(jié)果必須尊重現(xiàn)實世界的基本規(guī)律。一個被編輯的物體，應(yīng)當(dāng)保持它原有的核心屬性，比如幾何形狀、材質(zhì)和顏色。更重要的是，編輯所引發(fā)的變化，必須是連貫且合理的。

比如，你要求模型將這輛車向前移動一點，一個缺乏物理常識的模型可能會拉長車身、扭曲輪胎，或者干脆生成一個不合邏輯的影子。它只是在像素層面理解了向前，卻沒有理解移動這個動作背后所蘊含的一整套物理約束。

這些失敗的根源在于，現(xiàn)有方法大多是純粹由數(shù)據(jù)驅(qū)動的。

它們學(xué)習(xí)了海量圖像中的關(guān)聯(lián)性，卻缺乏一種內(nèi)在機(jī)制來強(qiáng)制編輯過程的連續(xù)性。這導(dǎo)致它們很容易產(chǎn)生一些看似合理，實則違反物理定律的漂移編輯。

在娛樂應(yīng)用中，這或許只是個小瑕疵。

但在自動駕駛、機(jī)器人技術(shù)或科學(xué)模擬等嚴(yán)肅領(lǐng)域，物理一致性是不可逾越的紅線。一個錯誤的模擬結(jié)果，可能會直接影響下游系統(tǒng)的決策與安全。

大規(guī)模視頻生成模型的出現(xiàn)帶來了新的曙光。

這些模型在訓(xùn)練中看過了不計其數(shù)的視頻，天生就具備在連續(xù)幀之間保持物體結(jié)構(gòu)和外觀一致的強(qiáng)大能力。這種能力，就是一種內(nèi)隱的時間先驗。

ChronoEdit正是抓住了這一點，它沒有重新發(fā)明輪子，而是巧妙地將視頻模型的這種時間感知能力，嫁接到圖像編輯任務(wù)上，構(gòu)建了一個為物理一致性而生的基礎(chǔ)模型。

將編輯變成一部微型電影

ChronoEdit的核心設(shè)計，可以用一句話概括：將預(yù)訓(xùn)練的圖像到視頻（I2V）模型，重新用于圖像編輯。

這個過程的第一步，是將編輯任務(wù)巧妙地重構(gòu)為一個兩幀視頻生成問題。

當(dāng)用戶提供一張輸入圖像和一條編輯指令時，ChronoEdit并不直接去修改這張圖。它將輸入圖像建模為視頻序列的第0幀，而將期望的輸出圖像建模為序列的第T幀。

通過這種方式，模型的任務(wù)不再是修改，而是預(yù)測中間過程。它需要想象出一個從第0幀到第T幀的合理演變路徑。當(dāng)模型用精心策劃的圖像編輯數(shù)據(jù)進(jìn)行微調(diào)后，這種兩幀的設(shè)定賦予了視頻模型強(qiáng)大的編輯能力，同時完美地保留并利用了其預(yù)訓(xùn)練中獲得的時間先驗，以確保物體保真度。

對于那些對時間連貫性要求極高的世界模擬任務(wù)，例如動作編輯（讓這個人舉起手），ChronoEdit更進(jìn)一步，引入了時間推理機(jī)制。

這個機(jī)制讓編輯過程在推理時被顯式地引導(dǎo)。

模型不再是直接從第一幀跳到最后一幀，而是主動地去想象并生成一系列中間過渡幀。這些中間幀就像一個思維草稿，規(guī)劃了編輯應(yīng)該如何一步步展開。

這些中間幀在技術(shù)上被稱為時間推理token。它們與輸入幀、目標(biāo)幀一起，在一個聯(lián)合去噪的過程中被處理。這個過程強(qiáng)迫模型去思考一個物理上可行的變換軌跡，從而將解空間限制在合理范圍內(nèi)，最終產(chǎn)生更符合物理規(guī)律的編輯結(jié)果。

具體到技術(shù)實現(xiàn)上，ChronoEdit建立在一種名為整流流（Rectified Flow）的視頻生成模型之上。

這類模型通常使用一個預(yù)訓(xùn)練的變分自編碼器（VAE）將高維的像素視頻壓縮成緊湊的潛在表示。所有核心的訓(xùn)練和推理都在這個低維的潛在空間中進(jìn)行，最后再由解碼器重建為像素視頻。

為了處理時間結(jié)構(gòu)，ChronoEdit利用了一種因果視頻VAE。它會獨立編碼第一幀，然后根據(jù)前一幀的潛在信息來壓縮后續(xù)的視頻塊。

當(dāng)處理一個編輯對（輸入圖像c，輸出圖像p）時，ChronoEdit會將它們重新解釋為一個極短的視頻序列。輸入圖像c被編碼為第一個潛在幀zc。而輸出圖像p則被重復(fù)四次，以匹配視頻VAE 4倍的時間壓縮率，然后編碼為潛在幀zp。

這樣就得到了兩個在結(jié)構(gòu)上與視頻模型完全對齊的時間潛在變量。為了讓模型明確感知它們在時間上的分離，ChronoEdit還通過調(diào)整模型的3D分解旋轉(zhuǎn)位置嵌入（RoPE），將輸入圖像錨定在時間步0，將輸出圖像錨定在預(yù)設(shè)的時間步T。

時間推理token的引入，是ChronoEdit超越傳統(tǒng)輸入輸出映射的關(guān)鍵。模型的目標(biāo)不再是單步內(nèi)憑空生成目標(biāo)圖像，因為這往往會導(dǎo)致突兀和不連貫的變化。通過推理中間狀態(tài)，模型能更好地保持物體的身份、幾何形狀和物理連貫性。

實踐中，ChronoEdit在代表輸入圖像的zc和代表輸出圖像的zp之間，插入了若干個中間潛在幀。這些幀在初始時被填充為隨機(jī)噪聲，然后與輸出幀的潛在變量zp一同參與去噪過程。它們扮演了中間向?qū)У慕巧瑤椭Ｐ退伎汲鲆粭l合理的變換路徑。

這種設(shè)計還帶來一個巨大的優(yōu)勢：訓(xùn)練框架的統(tǒng)一。無論是處理圖像編輯對，還是處理完整的視頻序列，模型都可以用同一種方式進(jìn)行訓(xùn)練。

對于圖像編輯數(shù)據(jù)，每一對樣本（輸入圖c，輸出圖p，指令y）都被看作一個兩幀視頻，模型直接學(xué)習(xí)如何根據(jù)指令完成編輯。

對于視頻數(shù)據(jù)，其結(jié)構(gòu)與推理token的設(shè)計完全匹配：視頻的第一幀對應(yīng)輸入c，最后一幀對應(yīng)輸出p，所有中間幀則自然地成為時間推理token。

這種設(shè)計讓推理token在推理時成為一個可選項，即便沒有它們，解碼器也能獨立恢復(fù)目標(biāo)幀。而當(dāng)它們存在時，又能為模型提供強(qiáng)大的連貫性轉(zhuǎn)換監(jiān)督。

這種圖像對與視頻的聯(lián)合訓(xùn)練策略，讓ChronoEdit得以兩全其美。它能從海量的圖像對中學(xué)習(xí)到豐富的語義對齊能力（即理解指令），同時又能從視頻數(shù)據(jù)中學(xué)習(xí)到寶貴的時間一致性。

當(dāng)然，要讓模型學(xué)會思考演變過程，就需要給它看足夠多、足夠好的范例。

為此，ChronoEdit團(tuán)隊策劃并生成了一個包含140萬個視頻的大規(guī)模合成數(shù)據(jù)集。這個數(shù)據(jù)集特別強(qiáng)調(diào)將場景動態(tài)與相機(jī)運動解耦，因為在訓(xùn)練中，如果第一幀和最后一幀之間發(fā)生了意外的視角變化，模型很可能會將其誤解為一種編輯效果。

這個精心策劃的視頻語料庫涵蓋了三個互補的類別：

靜態(tài)相機(jī)、動態(tài)物體的片段。這類視頻由文本到視頻模型生成，并在提示中特別加入了整個視頻中相機(jī)保持靜止的約束。
以自我為中心的駕駛場景。這是世界模擬中的一個關(guān)鍵場景，利用了能夠固定相機(jī)、同時通過邊界框精確控制車輛運動的專用模型生成。
動態(tài)相機(jī)、靜態(tài)場景的片段。這類視頻允許精確控制相機(jī)軌跡，同時保持場景內(nèi)容不變。

為了給這些視頻配上相應(yīng)的編輯指令，ChronoEdit使用了一個視覺語言模型（VLM）為每個視頻自動生成描述，總結(jié)從第一幀到最后一幀發(fā)生的變化。

在推理執(zhí)行編輯時，ChronoEdit也設(shè)計了一套高效的兩階段方法。它允許模型從時間推理token中獲益，又不必承擔(dān)生成完整視頻的全部計算開銷。

直覺上，一個生成過程（無論是擴(kuò)散還是流模型）的最初幾個步驟，在最嘈雜的狀態(tài)下，決定了最終結(jié)果的全局結(jié)構(gòu)。

因此，ChronoEdit只在最開始的若干個去噪步驟中加入視頻推理token，讓它們在最關(guān)鍵的時刻發(fā)揮作用。在后續(xù)的去噪步驟中，則省略它們，以在質(zhì)量和計算成本之間取得最佳平衡。

為了進(jìn)一步提速，ChronoEdit還采用了蒸餾技術(shù)。

它使用一種名為DMD的損失函數(shù)，訓(xùn)練了一個僅需8步就能完成推理的學(xué)生模型。經(jīng)過蒸餾后，模型在保持高質(zhì)量編輯效果和指令遵循能力的同時，推理速度得到了顯著提升。

現(xiàn)有的圖像編輯基準(zhǔn)，大多關(guān)注視覺保真度和指令遵循度，很少有專門評估物理一致性的。為了彌補這一空白，ChronoEdit團(tuán)隊引入了一個名為PBench-Edit的全新基準(zhǔn)。

PBench-Edit源自一個專門用于評估物理世界模型的PBench數(shù)據(jù)集。原數(shù)據(jù)集涵蓋了自動駕駛、機(jī)器人、物理學(xué)和常識推理等多個領(lǐng)域。

PBench-Edit從中精選出代表性的視頻幀，并為它們手工制作并驗證了編輯指令，從而構(gòu)建了一個既多樣化又植根于物理現(xiàn)實的評測集。

與其它偏向于簡單動作的基準(zhǔn)不同，PBench-Edit覆蓋了更廣泛的真實世界交互，如烹飪、駕駛和機(jī)器人操作。

它總共包含了271個高質(zhì)量的圖像編輯對。

評估時，同樣使用GPT-4.1作為裁判，從指令遵循度、編輯質(zhì)量和細(xì)節(jié)保留度三個維度進(jìn)行打分。

用數(shù)據(jù)說話的卓越性能

ChronoEdit在實驗中展現(xiàn)了其強(qiáng)大的能力。模型分為140億參數(shù)的ChronoEdit-14B和20億參數(shù)的ChronoEdit-2B兩個版本。

在通用的圖像編輯基準(zhǔn)ImgEdit上，ChronoEdit-14B（在禁用時間推理以保證公平比較的情況下）獲得了4.42的最高總分，優(yōu)于所有最先進(jìn)的基線模型。

尤其是在需要空間和結(jié)構(gòu)推理的提取、移除等任務(wù)上，其優(yōu)勢尤為明顯。這表明，即便是基礎(chǔ)的圖像視頻聯(lián)合預(yù)訓(xùn)練，也能為模型帶來強(qiáng)大的動態(tài)一致性和場景轉(zhuǎn)換建模能力。

經(jīng)過蒸餾加速的ChronoEdit-14B-Turbo版本，推理速度比原版快了6倍（在兩塊NVIDIA H100 GPU上，每張圖僅需5秒），得分僅略微下降，但仍然大幅超越了同級別的其它模型。

當(dāng)戰(zhàn)場轉(zhuǎn)移到強(qiáng)調(diào)物理一致性的PBench-Edit基準(zhǔn)上時，ChronoEdit的優(yōu)勢變得更加突出。

ChronoEdit-14B獲得了4.43的最高總分。最值得關(guān)注的是動作保真度這一項，它直接反映了模型在執(zhí)行涉及真實世界交互的編輯時，保持物理一致性的能力。在這個維度上，ChronoEdit-14B明顯優(yōu)于其它所有純圖像編輯模型。

當(dāng)開啟了時間推理功能后，ChronoEdit-14B-Think（即會思考的版本）更是將總分提升到了4.53，動作保真度得分也隨之大幅增長。這清晰地證明了顯式時間推理對于理解和執(zhí)行物理編輯的巨大價值。

一個有趣的發(fā)現(xiàn)是，即便在總共50個采樣步中，只在前10步使用時間推理（Nr=10），其性能也與全程使用推理相當(dāng)，而計算開銷僅增加了不到5秒。這說明了ChronoEdit兩階段推理策略的有效性。

更令人印象深刻的是，ChronoEdit能夠可視化其思考過程。如果將那些作為中間狀態(tài)的推理token也完全去噪并解碼成圖像，我們就能看到一條完整的推理軌跡。

如圖所示，當(dāng)被要求在長椅上添加一只貓時，模型并沒有直接畫出一只貓。它的推理軌跡顯示：首先，場景中的長椅被合成出來；然后，一只貓從角落出現(xiàn)，并以一個合理的跳躍動作登上了長椅。整個過程由一系列連貫的中間狀態(tài)組成，仿佛一部微型動畫。

我們來看看ChronoEdit的編輯效果。

Restore the Winged Victory of Samothrace by adding a realistic classical head and arms

ChronoEdit用一個優(yōu)雅的視角轉(zhuǎn)換，將圖像編輯的物理一致性難題，轉(zhuǎn)化為其擅長的視頻生成問題，并引入時間推理機(jī)制讓模型學(xué)會思考變換過程。

它不僅在通用編輯任務(wù)上達(dá)到了頂尖水平，更在需要物理常識的世界模擬場景中展現(xiàn)了無與倫比的優(yōu)勢。

免費試玩：https://huggingface.co/spaces/nvidia/ChronoEdit

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

英偉達(dá)圖像生成 AI

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

圖像編輯新神器：英偉達(dá)用拍電影思維解決圖像編輯與世界模擬一致性難題

圖像編輯的物理學(xué)難題

將編輯變成一部微型電影

用數(shù)據(jù)說話的卓越性能