国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

圖像編輯新神器:英偉達(dá)用拍電影思維解決圖像編輯與世界模擬一致性難題

人工智能 新聞
NVIDIA和多倫多大學(xué)的研究者們提出了一個絕妙的想法:假如我們不把圖像編輯看作是修改一張靜態(tài)圖片,而是看作在拍攝一部只有兩幀的微型電影呢?

AI圖像編輯領(lǐng)域,編輯前后保持一致性,一直是非常棘手的難題,尤其是物理一致性。

例如:Change the vehicle in the picture to be set in a beach environment(將圖片中的車輛更改為在海灘環(huán)境中)。

FLUX.1 [Dev],OmniGen2,Qwen-Image得到的結(jié)果分別是這樣的:

NVIDIA和多倫多大學(xué)的研究者們提出了一個絕妙的想法:假如我們不把圖像編輯看作是修改一張靜態(tài)圖片,而是看作在拍攝一部只有兩幀的微型電影呢?

這個想法催生了ChronoEdit框架。結(jié)果立馬見效:

ChronoEdit框架將輸入圖像視為電影的第一幀,將編輯后的理想圖像視為最后一幀。

通過這個簡單的視角轉(zhuǎn)換,圖像編輯這個經(jīng)典難題,瞬間變成了一個視頻生成問題。

這使得模型可以借助大規(guī)模視頻生成模型中早已學(xué)到的時間連續(xù)性知識,來確保編輯過程符合物理規(guī)律,讓P圖不再翻車。

圖像編輯的物理學(xué)難題

今天的圖像編輯技術(shù),在生成模型的驅(qū)動下已經(jīng)變得異常強(qiáng)大。我們可以用一句話讓圖片里的白天變?yōu)楹谝梗蛘咦尶諢o一物的桌子上出現(xiàn)一個蛋糕。

但這種強(qiáng)大背后,隱藏著一個深刻的缺陷:物理一致性的缺失。

物理一致性,通俗地講,就是編輯結(jié)果必須尊重現(xiàn)實世界的基本規(guī)律。一個被編輯的物體,應(yīng)當(dāng)保持它原有的核心屬性,比如幾何形狀、材質(zhì)和顏色。更重要的是,編輯所引發(fā)的變化,必須是連貫且合理的。

比如,你要求模型將這輛車向前移動一點,一個缺乏物理常識的模型可能會拉長車身、扭曲輪胎,或者干脆生成一個不合邏輯的影子。它只是在像素層面理解了向前,卻沒有理解移動這個動作背后所蘊含的一整套物理約束。

這些失敗的根源在于,現(xiàn)有方法大多是純粹由數(shù)據(jù)驅(qū)動的。

它們學(xué)習(xí)了海量圖像中的關(guān)聯(lián)性,卻缺乏一種內(nèi)在機(jī)制來強(qiáng)制編輯過程的連續(xù)性。這導(dǎo)致它們很容易產(chǎn)生一些看似合理,實則違反物理定律的漂移編輯。

在娛樂應(yīng)用中,這或許只是個小瑕疵。

但在自動駕駛、機(jī)器人技術(shù)或科學(xué)模擬等嚴(yán)肅領(lǐng)域,物理一致性是不可逾越的紅線。一個錯誤的模擬結(jié)果,可能會直接影響下游系統(tǒng)的決策與安全。

大規(guī)模視頻生成模型的出現(xiàn)帶來了新的曙光。

這些模型在訓(xùn)練中看過了不計其數(shù)的視頻,天生就具備在連續(xù)幀之間保持物體結(jié)構(gòu)和外觀一致的強(qiáng)大能力。這種能力,就是一種內(nèi)隱的時間先驗。

ChronoEdit正是抓住了這一點,它沒有重新發(fā)明輪子,而是巧妙地將視頻模型的這種時間感知能力,嫁接到圖像編輯任務(wù)上,構(gòu)建了一個為物理一致性而生的基礎(chǔ)模型。

將編輯變成一部微型電影

ChronoEdit的核心設(shè)計,可以用一句話概括:將預(yù)訓(xùn)練的圖像到視頻(I2V)模型,重新用于圖像編輯。

這個過程的第一步,是將編輯任務(wù)巧妙地重構(gòu)為一個兩幀視頻生成問題。

當(dāng)用戶提供一張輸入圖像和一條編輯指令時,ChronoEdit并不直接去修改這張圖。它將輸入圖像建模為視頻序列的第0幀,而將期望的輸出圖像建模為序列的第T幀。

通過這種方式,模型的任務(wù)不再是修改,而是預(yù)測中間過程。它需要想象出一個從第0幀到第T幀的合理演變路徑。當(dāng)模型用精心策劃的圖像編輯數(shù)據(jù)進(jìn)行微調(diào)后,這種兩幀的設(shè)定賦予了視頻模型強(qiáng)大的編輯能力,同時完美地保留并利用了其預(yù)訓(xùn)練中獲得的時間先驗,以確保物體保真度。

對于那些對時間連貫性要求極高的世界模擬任務(wù),例如動作編輯(讓這個人舉起手),ChronoEdit更進(jìn)一步,引入了時間推理機(jī)制。

這個機(jī)制讓編輯過程在推理時被顯式地引導(dǎo)。

模型不再是直接從第一幀跳到最后一幀,而是主動地去想象并生成一系列中間過渡幀。這些中間幀就像一個思維草稿,規(guī)劃了編輯應(yīng)該如何一步步展開。

這些中間幀在技術(shù)上被稱為時間推理token。它們與輸入幀、目標(biāo)幀一起,在一個聯(lián)合去噪的過程中被處理。這個過程強(qiáng)迫模型去思考一個物理上可行的變換軌跡,從而將解空間限制在合理范圍內(nèi),最終產(chǎn)生更符合物理規(guī)律的編輯結(jié)果。

具體到技術(shù)實現(xiàn)上,ChronoEdit建立在一種名為整流流(Rectified Flow)的視頻生成模型之上。

這類模型通常使用一個預(yù)訓(xùn)練的變分自編碼器(VAE)將高維的像素視頻壓縮成緊湊的潛在表示。所有核心的訓(xùn)練和推理都在這個低維的潛在空間中進(jìn)行,最后再由解碼器重建為像素視頻。

為了處理時間結(jié)構(gòu),ChronoEdit利用了一種因果視頻VAE。它會獨立編碼第一幀,然后根據(jù)前一幀的潛在信息來壓縮后續(xù)的視頻塊。

當(dāng)處理一個編輯對(輸入圖像c,輸出圖像p)時,ChronoEdit會將它們重新解釋為一個極短的視頻序列。輸入圖像c被編碼為第一個潛在幀zc。而輸出圖像p則被重復(fù)四次,以匹配視頻VAE 4倍的時間壓縮率,然后編碼為潛在幀zp。

這樣就得到了兩個在結(jié)構(gòu)上與視頻模型完全對齊的時間潛在變量。為了讓模型明確感知它們在時間上的分離,ChronoEdit還通過調(diào)整模型的3D分解旋轉(zhuǎn)位置嵌入(RoPE),將輸入圖像錨定在時間步0,將輸出圖像錨定在預(yù)設(shè)的時間步T。

時間推理token的引入,是ChronoEdit超越傳統(tǒng)輸入輸出映射的關(guān)鍵。模型的目標(biāo)不再是單步內(nèi)憑空生成目標(biāo)圖像,因為這往往會導(dǎo)致突兀和不連貫的變化。通過推理中間狀態(tài),模型能更好地保持物體的身份、幾何形狀和物理連貫性。

實踐中,ChronoEdit在代表輸入圖像的zc和代表輸出圖像的zp之間,插入了若干個中間潛在幀。這些幀在初始時被填充為隨機(jī)噪聲,然后與輸出幀的潛在變量zp一同參與去噪過程。它們扮演了中間向?qū)У慕巧瑤椭P退伎汲鲆粭l合理的變換路徑。

這種設(shè)計還帶來一個巨大的優(yōu)勢:訓(xùn)練框架的統(tǒng)一。無論是處理圖像編輯對,還是處理完整的視頻序列,模型都可以用同一種方式進(jìn)行訓(xùn)練。

對于圖像編輯數(shù)據(jù),每一對樣本(輸入圖c,輸出圖p,指令y)都被看作一個兩幀視頻,模型直接學(xué)習(xí)如何根據(jù)指令完成編輯。

對于視頻數(shù)據(jù),其結(jié)構(gòu)與推理token的設(shè)計完全匹配:視頻的第一幀對應(yīng)輸入c,最后一幀對應(yīng)輸出p,所有中間幀則自然地成為時間推理token。

這種設(shè)計讓推理token在推理時成為一個可選項,即便沒有它們,解碼器也能獨立恢復(fù)目標(biāo)幀。而當(dāng)它們存在時,又能為模型提供強(qiáng)大的連貫性轉(zhuǎn)換監(jiān)督。

這種圖像對與視頻的聯(lián)合訓(xùn)練策略,讓ChronoEdit得以兩全其美。它能從海量的圖像對中學(xué)習(xí)到豐富的語義對齊能力(即理解指令),同時又能從視頻數(shù)據(jù)中學(xué)習(xí)到寶貴的時間一致性。

當(dāng)然,要讓模型學(xué)會思考演變過程,就需要給它看足夠多、足夠好的范例。

為此,ChronoEdit團(tuán)隊策劃并生成了一個包含140萬個視頻的大規(guī)模合成數(shù)據(jù)集。這個數(shù)據(jù)集特別強(qiáng)調(diào)將場景動態(tài)與相機(jī)運動解耦,因為在訓(xùn)練中,如果第一幀和最后一幀之間發(fā)生了意外的視角變化,模型很可能會將其誤解為一種編輯效果。

這個精心策劃的視頻語料庫涵蓋了三個互補的類別:

  • 靜態(tài)相機(jī)、動態(tài)物體的片段。這類視頻由文本到視頻模型生成,并在提示中特別加入了整個視頻中相機(jī)保持靜止的約束。
  • 以自我為中心的駕駛場景。這是世界模擬中的一個關(guān)鍵場景,利用了能夠固定相機(jī)、同時通過邊界框精確控制車輛運動的專用模型生成。
  • 動態(tài)相機(jī)、靜態(tài)場景的片段。這類視頻允許精確控制相機(jī)軌跡,同時保持場景內(nèi)容不變。

為了給這些視頻配上相應(yīng)的編輯指令,ChronoEdit使用了一個視覺語言模型(VLM)為每個視頻自動生成描述,總結(jié)從第一幀到最后一幀發(fā)生的變化。

在推理執(zhí)行編輯時,ChronoEdit也設(shè)計了一套高效的兩階段方法。它允許模型從時間推理token中獲益,又不必承擔(dān)生成完整視頻的全部計算開銷。

直覺上,一個生成過程(無論是擴(kuò)散還是流模型)的最初幾個步驟,在最嘈雜的狀態(tài)下,決定了最終結(jié)果的全局結(jié)構(gòu)。

因此,ChronoEdit只在最開始的若干個去噪步驟中加入視頻推理token,讓它們在最關(guān)鍵的時刻發(fā)揮作用。在后續(xù)的去噪步驟中,則省略它們,以在質(zhì)量和計算成本之間取得最佳平衡。

為了進(jìn)一步提速,ChronoEdit還采用了蒸餾技術(shù)。

它使用一種名為DMD的損失函數(shù),訓(xùn)練了一個僅需8步就能完成推理的學(xué)生模型。經(jīng)過蒸餾后,模型在保持高質(zhì)量編輯效果和指令遵循能力的同時,推理速度得到了顯著提升。

現(xiàn)有的圖像編輯基準(zhǔn),大多關(guān)注視覺保真度和指令遵循度,很少有專門評估物理一致性的。為了彌補這一空白,ChronoEdit團(tuán)隊引入了一個名為PBench-Edit的全新基準(zhǔn)。

PBench-Edit源自一個專門用于評估物理世界模型的PBench數(shù)據(jù)集。原數(shù)據(jù)集涵蓋了自動駕駛、機(jī)器人、物理學(xué)和常識推理等多個領(lǐng)域。

PBench-Edit從中精選出代表性的視頻幀,并為它們手工制作并驗證了編輯指令,從而構(gòu)建了一個既多樣化又植根于物理現(xiàn)實的評測集。

與其它偏向于簡單動作的基準(zhǔn)不同,PBench-Edit覆蓋了更廣泛的真實世界交互,如烹飪、駕駛和機(jī)器人操作。

它總共包含了271個高質(zhì)量的圖像編輯對。

評估時,同樣使用GPT-4.1作為裁判,從指令遵循度、編輯質(zhì)量和細(xì)節(jié)保留度三個維度進(jìn)行打分。

用數(shù)據(jù)說話的卓越性能

ChronoEdit在實驗中展現(xiàn)了其強(qiáng)大的能力。模型分為140億參數(shù)的ChronoEdit-14B和20億參數(shù)的ChronoEdit-2B兩個版本。

在通用的圖像編輯基準(zhǔn)ImgEdit上,ChronoEdit-14B(在禁用時間推理以保證公平比較的情況下)獲得了4.42的最高總分,優(yōu)于所有最先進(jìn)的基線模型。

尤其是在需要空間和結(jié)構(gòu)推理的提取、移除等任務(wù)上,其優(yōu)勢尤為明顯。這表明,即便是基礎(chǔ)的圖像視頻聯(lián)合預(yù)訓(xùn)練,也能為模型帶來強(qiáng)大的動態(tài)一致性和場景轉(zhuǎn)換建模能力。

經(jīng)過蒸餾加速的ChronoEdit-14B-Turbo版本,推理速度比原版快了6倍(在兩塊NVIDIA H100 GPU上,每張圖僅需5秒),得分僅略微下降,但仍然大幅超越了同級別的其它模型。

當(dāng)戰(zhàn)場轉(zhuǎn)移到強(qiáng)調(diào)物理一致性的PBench-Edit基準(zhǔn)上時,ChronoEdit的優(yōu)勢變得更加突出。

ChronoEdit-14B獲得了4.43的最高總分。最值得關(guān)注的是動作保真度這一項,它直接反映了模型在執(zhí)行涉及真實世界交互的編輯時,保持物理一致性的能力。在這個維度上,ChronoEdit-14B明顯優(yōu)于其它所有純圖像編輯模型。

當(dāng)開啟了時間推理功能后,ChronoEdit-14B-Think(即會思考的版本)更是將總分提升到了4.53,動作保真度得分也隨之大幅增長。這清晰地證明了顯式時間推理對于理解和執(zhí)行物理編輯的巨大價值。

一個有趣的發(fā)現(xiàn)是,即便在總共50個采樣步中,只在前10步使用時間推理(Nr=10),其性能也與全程使用推理相當(dāng),而計算開銷僅增加了不到5秒。這說明了ChronoEdit兩階段推理策略的有效性。

更令人印象深刻的是,ChronoEdit能夠可視化其思考過程。如果將那些作為中間狀態(tài)的推理token也完全去噪并解碼成圖像,我們就能看到一條完整的推理軌跡。

如圖所示,當(dāng)被要求在長椅上添加一只貓時,模型并沒有直接畫出一只貓。它的推理軌跡顯示:首先,場景中的長椅被合成出來;然后,一只貓從角落出現(xiàn),并以一個合理的跳躍動作登上了長椅。整個過程由一系列連貫的中間狀態(tài)組成,仿佛一部微型動畫。

我們來看看ChronoEdit的編輯效果。

Restore the Winged Victory of Samothrace by adding a realistic classical head and arms

ChronoEdit用一個優(yōu)雅的視角轉(zhuǎn)換,將圖像編輯的物理一致性難題,轉(zhuǎn)化為其擅長的視頻生成問題,并引入時間推理機(jī)制讓模型學(xué)會思考變換過程。

它不僅在通用編輯任務(wù)上達(dá)到了頂尖水平,更在需要物理常識的世界模擬場景中展現(xiàn)了無與倫比的優(yōu)勢。

免費試玩:https://huggingface.co/spaces/nvidia/ChronoEdit

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-01-17 10:30:00

2019-04-03 15:00:47

Python圖像編輯工具

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2023-01-02 13:12:07

模型圖像

2024-03-11 09:37:01

模型圖片編輯

2025-05-30 14:28:10

GPTAI生圖

2025-01-17 10:00:00

2015-03-27 15:41:42

AdobeAcrobat DC

2025-09-01 09:08:41

2025-01-21 10:45:00

訓(xùn)練模型架構(gòu)

2024-05-30 00:00:01

GPT-3.5SOTASDXL

2025-08-20 09:06:00

2021-12-27 08:08:41

微軟WindowsWindows 11

2021-02-16 09:37:01

Filmulator開源圖像編輯器

2023-04-13 15:55:00

AI開源

2023-05-22 07:29:59

AIDragGAN

2019-01-04 10:00:48

開源技術(shù) 趨勢

2025-08-28 09:17:50

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀
點贊
收藏

51CTO技術(shù)棧公眾號

中文字幕在线国产精品| 亚洲在线免费看| 国产精品毛片aⅴ一区二区三区| 日韩美女视频在线| 多野结衣av一区| 在线观看亚洲区| japanese在线视频| 国产精一区二区三区| 国产美女在线一区| 18欧美乱大交hd1984| 在线香蕉视频| 91精品国产福利在线观看| 波多野结衣亚洲| 欧美激情乱人伦| 9999国产精品| 久久国产精品久久精品国产| 国精品**一区二区三区在线蜜桃| 精品国产免费av| 亚洲福利电影网| 4438x成人网全国最大| 日韩在线视频国产| 国产精品欧美三级在线观看| 亚洲r级在线观看| 国产一区二区三区四区在线观看| 成人在色线视频在线观看免费大全 | 国产一区二区在线视频| 美女av在线免费观看| 欧美精品在线观看一区二区| 伊人亚洲精品| 国产九色porny| 欧美成人精品| 久久久久福利视频| 亚洲黄色尤物视频| 手机在线免费av| 久久久久久97| 91久久综合| 最新中文字幕2018| 91精品国产全国免费观看| 日本免费一区二区三区视频| 国产精品二区三区四区| av一二三不卡影片| 国产午夜在线视频| 欧美巨猛xxxx猛交黑人97人| 亚洲激情av| 成年人在线看片| 欧美日韩国产大片| 国产亚洲观看| 久久久久久国产精品mv| 中文字幕免费不卡在线| 欧美卡一卡二| 国产噜噜噜噜噜久久久久久久久| 国产精品自拍三区| 可以直接在线观看的av| 久久91精品国产91久久跳| 99精品免费| 99在线欧洲视频| 国产亚洲视频在线| 最新国产乱人伦偷精品免费网站| 91精品无人成人www| 日韩高清a**址| 国产精品videosex极品| 白天操夜夜操| 国产亚洲免费的视频看| 国产精品大片| 97香蕉久久| 欧美高清第一页| 精品一区二区三区的国产在线播放| 一色桃子在线| 国产成人精彩在线视频九色| 午夜精品三级视频福利| 在这里有精品| 91免费视频黄| 欧美老人xxxx18| 91精品1区| 麻豆免费网站| 久久亚洲精品网站| 国内精品国产三级国产a久久 | 亚洲成av人片在线| 大型av综合网站| 自拍日韩亚洲一区在线| 精品一区电影国产| 美腿丝袜一区二区三区| 日韩免费网站| 5566av亚洲| 五月综合激情婷婷六月色窝| 国偷自产av一区二区三区| 午夜免费福利小电影| 亚洲视频网站在线观看| 美女任你摸久久| heyzo高清中文字幕在线| 日韩欧美一区二区三区四区五区 | 欧美性一区二区| 四虎国产精品免费观看| 国产特级毛片| 国产999在线观看| 亚洲精品国产一区二区三区四区在线| 欧美一性一交| 婷婷六月激情| 国产综合福利在线| 91久久精品日日躁夜夜躁欧美| 久久国产小视频| 最近中文字幕mv免费高清在线| 性欧美视频videos6一9| 国产偷国产偷亚洲高清人白洁| 中文字幕一区日韩精品 | 欧美黄色性视频| 亚洲专区视频| 黄网站免费观看| 国产精品三级久久久久久电影| 一区二区三区av电影| 成人一区不卡| 国产高清在线看| 久久久久久久久久久久久久一区 | 在线国产情侣| 国产精品三区在线| 欧美一区二区三区影视| 六月丁香婷婷色狠狠久久| 97人人在线视频| 影音先锋欧美资源| 伊人久久久久久久久久| heyzo一本久久综合| 国产精品丝袜在线播放| 四虎永久在线| 欧美黄色直播| 中文字幕日韩欧美在线视频| 国产欧美视频一区二区| 色婷婷色综合| 超碰个人在线| 免费看一级大黄情大片| 国产精品扒开腿做爽爽爽男男| 91久久免费观看| 激情深爱一区二区| 国产精品1luya在线播放| 天堂视频中文在线| 日韩欧美在线一区二区| 欧美成人免费播放| 欧美性猛交xxxx富婆| 狠狠色丁香婷婷综合久久片| 国产精品美女在线观看直播| 国产三级电影在线| 国产欧美123| 国产精品电影观看| 欧美一区二区三区的| 国产亚洲精品久| 韩日视频一区| 亚洲国产天堂| 牛牛澡牛牛爽一区二区| 中文字幕一区二区三区四区五区六区| 日韩一中文字幕| 丁香五六月婷婷久久激情| 日韩精品国产欧美| 日韩在线观看一区二区三区| 国产区高清在线| 国产真人做爰毛片视频直播| 国产精自产拍久久久久久蜜| 亚洲美女性生活视频| 亚洲国产精品自拍| 国产在线国偷精品产拍免费yy| 免费黄色成人| 裤袜国产欧美精品一区| 中文在线有码| 国产3p露脸普通话对白| 91成人免费看| 色与欲影视天天看综合网| 欧美亚洲一区二区三区四区| 久久久精品日韩欧美| 噜噜噜在线观看免费视频日韩| 欧美激情极品| 日本电影欧美片| jyzzz在线观看视频| 成人www视频网站免费观看| 亚洲精品第一区二区三区| 国产精品视频地址| 色av吧综合网| 精品女同一区二区| 精品国产电影一区| 日本一区二区三区在线观看| 久久久999| 五月激情综合| 超碰在线亚洲| 91国内外精品自在线播放| 免费福利在线观看| www成人免费观看网站| 草草草视频在线观看| 国产精品v欧美精品∨日韩| 91国自产精品中文字幕亚洲| 国产亚洲aⅴaaaaaa毛片| 制服.丝袜.亚洲.中文.综合| 艳妇臀荡乳欲伦亚洲一区| 91免费在线看| 激情综合亚洲精品| 香蕉久久a毛片| 天天做天天爱天天综合网| 日韩欧美黄色大片| 久久久久久国产精品免费免费| 国产欧美123| 亚洲成人网在线| 亚洲国产毛片aaaaa无费看| av电影在线观看一区| 视频一区二区不卡|