国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

圖像編輯新神器:英偉達(dá)用拍電影思維解決圖像編輯與世界模擬一致性難題

人工智能 新聞
NVIDIA和多倫多大學(xué)的研究者們提出了一個絕妙的想法:假如我們不把圖像編輯看作是修改一張靜態(tài)圖片,而是看作在拍攝一部只有兩幀的微型電影呢?

AI圖像編輯領(lǐng)域,編輯前后保持一致性,一直是非常棘手的難題,尤其是物理一致性。

例如:Change the vehicle in the picture to be set in a beach environment(將圖片中的車輛更改為在海灘環(huán)境中)。

FLUX.1 [Dev],OmniGen2,Qwen-Image得到的結(jié)果分別是這樣的:

NVIDIA和多倫多大學(xué)的研究者們提出了一個絕妙的想法:假如我們不把圖像編輯看作是修改一張靜態(tài)圖片,而是看作在拍攝一部只有兩幀的微型電影呢?

這個想法催生了ChronoEdit框架。結(jié)果立馬見效:

ChronoEdit框架將輸入圖像視為電影的第一幀,將編輯后的理想圖像視為最后一幀。

通過這個簡單的視角轉(zhuǎn)換,圖像編輯這個經(jīng)典難題,瞬間變成了一個視頻生成問題。

這使得模型可以借助大規(guī)模視頻生成模型中早已學(xué)到的時間連續(xù)性知識,來確保編輯過程符合物理規(guī)律,讓P圖不再翻車。

圖像編輯的物理學(xué)難題

今天的圖像編輯技術(shù),在生成模型的驅(qū)動下已經(jīng)變得異常強(qiáng)大。我們可以用一句話讓圖片里的白天變?yōu)楹谝梗蛘咦尶諢o一物的桌子上出現(xiàn)一個蛋糕。

但這種強(qiáng)大背后,隱藏著一個深刻的缺陷:物理一致性的缺失。

物理一致性,通俗地講,就是編輯結(jié)果必須尊重現(xiàn)實世界的基本規(guī)律。一個被編輯的物體,應(yīng)當(dāng)保持它原有的核心屬性,比如幾何形狀、材質(zhì)和顏色。更重要的是,編輯所引發(fā)的變化,必須是連貫且合理的。

比如,你要求模型將這輛車向前移動一點,一個缺乏物理常識的模型可能會拉長車身、扭曲輪胎,或者干脆生成一個不合邏輯的影子。它只是在像素層面理解了向前,卻沒有理解移動這個動作背后所蘊含的一整套物理約束。

這些失敗的根源在于,現(xiàn)有方法大多是純粹由數(shù)據(jù)驅(qū)動的。

它們學(xué)習(xí)了海量圖像中的關(guān)聯(lián)性,卻缺乏一種內(nèi)在機(jī)制來強(qiáng)制編輯過程的連續(xù)性。這導(dǎo)致它們很容易產(chǎn)生一些看似合理,實則違反物理定律的漂移編輯。

在娛樂應(yīng)用中,這或許只是個小瑕疵。

但在自動駕駛、機(jī)器人技術(shù)或科學(xué)模擬等嚴(yán)肅領(lǐng)域,物理一致性是不可逾越的紅線。一個錯誤的模擬結(jié)果,可能會直接影響下游系統(tǒng)的決策與安全。

大規(guī)模視頻生成模型的出現(xiàn)帶來了新的曙光。

這些模型在訓(xùn)練中看過了不計其數(shù)的視頻,天生就具備在連續(xù)幀之間保持物體結(jié)構(gòu)和外觀一致的強(qiáng)大能力。這種能力,就是一種內(nèi)隱的時間先驗。

ChronoEdit正是抓住了這一點,它沒有重新發(fā)明輪子,而是巧妙地將視頻模型的這種時間感知能力,嫁接到圖像編輯任務(wù)上,構(gòu)建了一個為物理一致性而生的基礎(chǔ)模型。

將編輯變成一部微型電影

ChronoEdit的核心設(shè)計,可以用一句話概括:將預(yù)訓(xùn)練的圖像到視頻(I2V)模型,重新用于圖像編輯。

這個過程的第一步,是將編輯任務(wù)巧妙地重構(gòu)為一個兩幀視頻生成問題。

當(dāng)用戶提供一張輸入圖像和一條編輯指令時,ChronoEdit并不直接去修改這張圖。它將輸入圖像建模為視頻序列的第0幀,而將期望的輸出圖像建模為序列的第T幀。

通過這種方式,模型的任務(wù)不再是修改,而是預(yù)測中間過程。它需要想象出一個從第0幀到第T幀的合理演變路徑。當(dāng)模型用精心策劃的圖像編輯數(shù)據(jù)進(jìn)行微調(diào)后,這種兩幀的設(shè)定賦予了視頻模型強(qiáng)大的編輯能力,同時完美地保留并利用了其預(yù)訓(xùn)練中獲得的時間先驗,以確保物體保真度。

對于那些對時間連貫性要求極高的世界模擬任務(wù),例如動作編輯(讓這個人舉起手),ChronoEdit更進(jìn)一步,引入了時間推理機(jī)制。

這個機(jī)制讓編輯過程在推理時被顯式地引導(dǎo)。

模型不再是直接從第一幀跳到最后一幀,而是主動地去想象并生成一系列中間過渡幀。這些中間幀就像一個思維草稿,規(guī)劃了編輯應(yīng)該如何一步步展開。

這些中間幀在技術(shù)上被稱為時間推理token。它們與輸入幀、目標(biāo)幀一起,在一個聯(lián)合去噪的過程中被處理。這個過程強(qiáng)迫模型去思考一個物理上可行的變換軌跡,從而將解空間限制在合理范圍內(nèi),最終產(chǎn)生更符合物理規(guī)律的編輯結(jié)果。

具體到技術(shù)實現(xiàn)上,ChronoEdit建立在一種名為整流流(Rectified Flow)的視頻生成模型之上。

這類模型通常使用一個預(yù)訓(xùn)練的變分自編碼器(VAE)將高維的像素視頻壓縮成緊湊的潛在表示。所有核心的訓(xùn)練和推理都在這個低維的潛在空間中進(jìn)行,最后再由解碼器重建為像素視頻。

為了處理時間結(jié)構(gòu),ChronoEdit利用了一種因果視頻VAE。它會獨立編碼第一幀,然后根據(jù)前一幀的潛在信息來壓縮后續(xù)的視頻塊。

當(dāng)處理一個編輯對(輸入圖像c,輸出圖像p)時,ChronoEdit會將它們重新解釋為一個極短的視頻序列。輸入圖像c被編碼為第一個潛在幀zc。而輸出圖像p則被重復(fù)四次,以匹配視頻VAE 4倍的時間壓縮率,然后編碼為潛在幀zp。

這樣就得到了兩個在結(jié)構(gòu)上與視頻模型完全對齊的時間潛在變量。為了讓模型明確感知它們在時間上的分離,ChronoEdit還通過調(diào)整模型的3D分解旋轉(zhuǎn)位置嵌入(RoPE),將輸入圖像錨定在時間步0,將輸出圖像錨定在預(yù)設(shè)的時間步T。

時間推理token的引入,是ChronoEdit超越傳統(tǒng)輸入輸出映射的關(guān)鍵。模型的目標(biāo)不再是單步內(nèi)憑空生成目標(biāo)圖像,因為這往往會導(dǎo)致突兀和不連貫的變化。通過推理中間狀態(tài),模型能更好地保持物體的身份、幾何形狀和物理連貫性。

實踐中,ChronoEdit在代表輸入圖像的zc和代表輸出圖像的zp之間,插入了若干個中間潛在幀。這些幀在初始時被填充為隨機(jī)噪聲,然后與輸出幀的潛在變量zp一同參與去噪過程。它們扮演了中間向?qū)У慕巧瑤椭P退伎汲鲆粭l合理的變換路徑。

這種設(shè)計還帶來一個巨大的優(yōu)勢:訓(xùn)練框架的統(tǒng)一。無論是處理圖像編輯對,還是處理完整的視頻序列,模型都可以用同一種方式進(jìn)行訓(xùn)練。

對于圖像編輯數(shù)據(jù),每一對樣本(輸入圖c,輸出圖p,指令y)都被看作一個兩幀視頻,模型直接學(xué)習(xí)如何根據(jù)指令完成編輯。

對于視頻數(shù)據(jù),其結(jié)構(gòu)與推理token的設(shè)計完全匹配:視頻的第一幀對應(yīng)輸入c,最后一幀對應(yīng)輸出p,所有中間幀則自然地成為時間推理token。

這種設(shè)計讓推理token在推理時成為一個可選項,即便沒有它們,解碼器也能獨立恢復(fù)目標(biāo)幀。而當(dāng)它們存在時,又能為模型提供強(qiáng)大的連貫性轉(zhuǎn)換監(jiān)督。

這種圖像對與視頻的聯(lián)合訓(xùn)練策略,讓ChronoEdit得以兩全其美。它能從海量的圖像對中學(xué)習(xí)到豐富的語義對齊能力(即理解指令),同時又能從視頻數(shù)據(jù)中學(xué)習(xí)到寶貴的時間一致性。

當(dāng)然,要讓模型學(xué)會思考演變過程,就需要給它看足夠多、足夠好的范例。

為此,ChronoEdit團(tuán)隊策劃并生成了一個包含140萬個視頻的大規(guī)模合成數(shù)據(jù)集。這個數(shù)據(jù)集特別強(qiáng)調(diào)將場景動態(tài)與相機(jī)運動解耦,因為在訓(xùn)練中,如果第一幀和最后一幀之間發(fā)生了意外的視角變化,模型很可能會將其誤解為一種編輯效果。

這個精心策劃的視頻語料庫涵蓋了三個互補的類別:

  • 靜態(tài)相機(jī)、動態(tài)物體的片段。這類視頻由文本到視頻模型生成,并在提示中特別加入了整個視頻中相機(jī)保持靜止的約束。
  • 以自我為中心的駕駛場景。這是世界模擬中的一個關(guān)鍵場景,利用了能夠固定相機(jī)、同時通過邊界框精確控制車輛運動的專用模型生成。
  • 動態(tài)相機(jī)、靜態(tài)場景的片段。這類視頻允許精確控制相機(jī)軌跡,同時保持場景內(nèi)容不變。

為了給這些視頻配上相應(yīng)的編輯指令,ChronoEdit使用了一個視覺語言模型(VLM)為每個視頻自動生成描述,總結(jié)從第一幀到最后一幀發(fā)生的變化。

在推理執(zhí)行編輯時,ChronoEdit也設(shè)計了一套高效的兩階段方法。它允許模型從時間推理token中獲益,又不必承擔(dān)生成完整視頻的全部計算開銷。

直覺上,一個生成過程(無論是擴(kuò)散還是流模型)的最初幾個步驟,在最嘈雜的狀態(tài)下,決定了最終結(jié)果的全局結(jié)構(gòu)。

因此,ChronoEdit只在最開始的若干個去噪步驟中加入視頻推理token,讓它們在最關(guān)鍵的時刻發(fā)揮作用。在后續(xù)的去噪步驟中,則省略它們,以在質(zhì)量和計算成本之間取得最佳平衡。

為了進(jìn)一步提速,ChronoEdit還采用了蒸餾技術(shù)。

它使用一種名為DMD的損失函數(shù),訓(xùn)練了一個僅需8步就能完成推理的學(xué)生模型。經(jīng)過蒸餾后,模型在保持高質(zhì)量編輯效果和指令遵循能力的同時,推理速度得到了顯著提升。

現(xiàn)有的圖像編輯基準(zhǔn),大多關(guān)注視覺保真度和指令遵循度,很少有專門評估物理一致性的。為了彌補這一空白,ChronoEdit團(tuán)隊引入了一個名為PBench-Edit的全新基準(zhǔn)。

PBench-Edit源自一個專門用于評估物理世界模型的PBench數(shù)據(jù)集。原數(shù)據(jù)集涵蓋了自動駕駛、機(jī)器人、物理學(xué)和常識推理等多個領(lǐng)域。

PBench-Edit從中精選出代表性的視頻幀,并為它們手工制作并驗證了編輯指令,從而構(gòu)建了一個既多樣化又植根于物理現(xiàn)實的評測集。

與其它偏向于簡單動作的基準(zhǔn)不同,PBench-Edit覆蓋了更廣泛的真實世界交互,如烹飪、駕駛和機(jī)器人操作。

它總共包含了271個高質(zhì)量的圖像編輯對。

評估時,同樣使用GPT-4.1作為裁判,從指令遵循度、編輯質(zhì)量和細(xì)節(jié)保留度三個維度進(jìn)行打分。

用數(shù)據(jù)說話的卓越性能

ChronoEdit在實驗中展現(xiàn)了其強(qiáng)大的能力。模型分為140億參數(shù)的ChronoEdit-14B和20億參數(shù)的ChronoEdit-2B兩個版本。

在通用的圖像編輯基準(zhǔn)ImgEdit上,ChronoEdit-14B(在禁用時間推理以保證公平比較的情況下)獲得了4.42的最高總分,優(yōu)于所有最先進(jìn)的基線模型。

尤其是在需要空間和結(jié)構(gòu)推理的提取、移除等任務(wù)上,其優(yōu)勢尤為明顯。這表明,即便是基礎(chǔ)的圖像視頻聯(lián)合預(yù)訓(xùn)練,也能為模型帶來強(qiáng)大的動態(tài)一致性和場景轉(zhuǎn)換建模能力。

經(jīng)過蒸餾加速的ChronoEdit-14B-Turbo版本,推理速度比原版快了6倍(在兩塊NVIDIA H100 GPU上,每張圖僅需5秒),得分僅略微下降,但仍然大幅超越了同級別的其它模型。

當(dāng)戰(zhàn)場轉(zhuǎn)移到強(qiáng)調(diào)物理一致性的PBench-Edit基準(zhǔn)上時,ChronoEdit的優(yōu)勢變得更加突出。

ChronoEdit-14B獲得了4.43的最高總分。最值得關(guān)注的是動作保真度這一項,它直接反映了模型在執(zhí)行涉及真實世界交互的編輯時,保持物理一致性的能力。在這個維度上,ChronoEdit-14B明顯優(yōu)于其它所有純圖像編輯模型。

當(dāng)開啟了時間推理功能后,ChronoEdit-14B-Think(即會思考的版本)更是將總分提升到了4.53,動作保真度得分也隨之大幅增長。這清晰地證明了顯式時間推理對于理解和執(zhí)行物理編輯的巨大價值。

一個有趣的發(fā)現(xiàn)是,即便在總共50個采樣步中,只在前10步使用時間推理(Nr=10),其性能也與全程使用推理相當(dāng),而計算開銷僅增加了不到5秒。這說明了ChronoEdit兩階段推理策略的有效性。

更令人印象深刻的是,ChronoEdit能夠可視化其思考過程。如果將那些作為中間狀態(tài)的推理token也完全去噪并解碼成圖像,我們就能看到一條完整的推理軌跡。

如圖所示,當(dāng)被要求在長椅上添加一只貓時,模型并沒有直接畫出一只貓。它的推理軌跡顯示:首先,場景中的長椅被合成出來;然后,一只貓從角落出現(xiàn),并以一個合理的跳躍動作登上了長椅。整個過程由一系列連貫的中間狀態(tài)組成,仿佛一部微型動畫。

我們來看看ChronoEdit的編輯效果。

Restore the Winged Victory of Samothrace by adding a realistic classical head and arms

ChronoEdit用一個優(yōu)雅的視角轉(zhuǎn)換,將圖像編輯的物理一致性難題,轉(zhuǎn)化為其擅長的視頻生成問題,并引入時間推理機(jī)制讓模型學(xué)會思考變換過程。

它不僅在通用編輯任務(wù)上達(dá)到了頂尖水平,更在需要物理常識的世界模擬場景中展現(xiàn)了無與倫比的優(yōu)勢。

免費試玩:https://huggingface.co/spaces/nvidia/ChronoEdit

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2025-01-17 10:30:00

2019-04-03 15:00:47

Python圖像編輯工具

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2023-01-02 13:12:07

模型圖像

2024-03-11 09:37:01

模型圖片編輯

2025-05-30 14:28:10

GPTAI生圖

2025-01-17 10:00:00

2015-03-27 15:41:42

AdobeAcrobat DC

2025-09-01 09:08:41

2025-01-21 10:45:00

訓(xùn)練模型架構(gòu)

2024-05-30 00:00:01

GPT-3.5SOTASDXL

2025-08-20 09:06:00

2021-12-27 08:08:41

微軟WindowsWindows 11

2021-02-16 09:37:01

Filmulator開源圖像編輯器

2023-04-13 15:55:00

AI開源

2023-05-22 07:29:59

AIDragGAN

2019-01-04 10:00:48

開源技術(shù) 趨勢

2025-08-28 09:17:50

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀
點贊
收藏

51CTO技術(shù)棧公眾號

jizz国产精品| 麻豆国产欧美一区二区三区| 欧美日韩免费不卡视频一区二区三区 | 欧美男男tv网站在线播放| 一区二区三区中文在线观看| 国产91对白刺激露脸在线观看| 91影院成人| 色综合男人天堂| 97人澡人人添人人爽欧美| 欧美丝袜第三区| jizzjizz中文| 国产精品每日更新| 国产无限制自拍| 国产在线看一区| 一区二区91美女张开腿让人桶| 日韩视频久久| 国产精品免费一区二区三区观看 | 欧美成人精品午夜一区二区| 亚洲男人第一av网站| 性欧美video高清bbw| 欧美日韩一区二区在线观看视频| 导航福利在线| 亚洲黄色小视频| 免费观看视频www| 久久精品一区四区| av在线无限看| 国产精品污污网站在线观看| 亚洲乱码国产一区三区| 久久精品欧美一区二区三区不卡| 性一交一乱一伧国产女士spa| 国产激情精品久久久第一区二区 | 狠狠久久亚洲欧美专区| 桥本有菜亚洲精品av在线| 亚洲一区在线视频观看| 中文在线天堂网| 欧美亚洲国产一区二区三区va | 水莓100在线视频| 欧美日韩一区二区免费在线观看 | 国产一区高清视频| 国产精品白丝av| 国产伦精品一区二区三区照片91| 三上亚洲一区二区| 国产精品日韩欧美大师| 国产成人精品免高潮在线观看| 激情一区二区三区| 国产精品一区二区av日韩在线| 亚洲一区二区精品视频| 久久本道综合色狠狠五月| www.youjizz.com在线| 久久精品二区亚洲w码| 这里只有精品在线播放| 国产经品一区二区| 伊人久久精品| 欧美韩国日本不卡| 色偷偷福利视频| 一区二区三区四区在线| 你懂得网站在线| 精品乱人伦小说| 成人在线黄色| 97国产在线视频| 亚洲欧洲日韩| 亚洲欧洲一二三| 久久中文字幕电影| 欧美承认网站| 欧美日韩在线不卡| 在线天堂新版最新版在线8| 欧美老少做受xxxx高潮| 蜜臀av免费一区二区三区| 不卡视频一区二区三区| 国产suv精品一区二区三区| 免费h片在线观看| 日韩欧美成人一区| 麻豆成人入口| 久久亚洲国产精品日日av夜夜| 国产一区二区三区久久久 | 亚洲桃色在线一区| av中文在线| 欧美成人剧情片在线观看| 欧美午夜在线| 亚洲福利精品视频| 欧美高清激情brazzers| 亚洲视频国产| 精品蜜桃一区二区三区| 中文字幕的久久| 国产高清在线a视频大全| 欧美在线视频免费播放| 蜜臀av一区二区在线免费观看 | 精品无人国产偷自产在线| 欧美五码在线| 一区二区三区在线观看www| 亚洲激情中文1区| 久草在线视频网站| 人人澡人人澡人人看欧美| 麻豆freexxxx性91精品| 校园春色影音先锋| 一区二区三区回区在观看免费视频| 欧美日韩国产传媒| 久久综合色视频| 欧美zozo另类异族| 一级欧洲+日本+国产 | 看片网站欧美日韩| 天堂a中文在线| 97视频国产在线| 国产精品羞羞答答xxdd| 国家队第一季免费高清在线观看| 久久精品国产成人| 日韩精品视频网| 人成免费电影一二三区在线观看| 久久精品91久久香蕉加勒比| 日韩中文字幕av电影| 黄色av网站在线| 欧美专区在线视频| 久久午夜羞羞影院免费观看| 亚洲欧洲高清| 日本不卡久久| 欧美中文字幕一二三区视频| 久久爱www成人| 中文字幕永久视频| 日韩一区av在线| 韩国一区二区视频| 国产在线观看av| 国产日本欧美一区二区三区| 国产精品美女久久久久av爽李琼| 在线观看爽视频| 欧美自拍资源在线| 欧美视频一区在线| 在线精品国产| 一级在线免费观看| 国产精品免费一区豆花| 中文字幕亚洲一区二区av在线| 日韩黄色碟片| 99在线精品免费视频| 亚洲国产另类 国产精品国产免费| 一本久道久久综合狠狠爱| 另类av导航| 国产欧美精品在线| 亚洲欧美偷拍另类a∨色屁股| 日本在线成人| 国产性生交xxxxx免费| 欧美成人精品一区| 91蝌蚪国产九色| 日本综合精品一区| 久久这里只精品| 欧美一区二区三区四区在线| 国产精品成人一区二区三区夜夜夜| 伊人久久亚洲| yy4480电影网| 国产精品美女www| 色狠狠色狠狠综合| 日韩视频在线一区二区三区| 成年视频在线观看| 亚洲人成网站在线播放2019| 日韩电影免费观看在线观看| 国产一区啦啦啦在线观看| 国产韩日精品| 午夜精品在线免费观看| 欧美一级黄色网| 精品久久久久久电影| 亚洲激情偷拍| 涩涩av在线| 免费成人在线视频网站| 国产91成人在在线播放| 午夜激情久久久| 亚洲欧美日韩国产一区| 欧美18av| 免费观看成人网| 国产精品爽爽ⅴa在线观看| 在线观看成人免费视频| 青青草97国产精品免费观看无弹窗版| 在线观看的黄色| caoporn超碰97| 国产精品成人aaaaa网站| 欧洲精品视频在线观看| 九一九一国产精品| 久久a爱视频| 午夜视频成人| 黄页网站大全在线观看| 欧美一区三区三区高中清蜜桃| 高跟丝袜一区二区三区| 日韩av电影一区| 亚洲日本va中文字幕| 一级视频在线观看视频在线啦啦| 欧洲成人一区二区| 欧美激情三级免费| 欧美视频中文一区二区三区在线观看| 精品一区在线看| 伊甸园亚洲一区| 黄色在线看片| 成人丁香基地| 四虎影院一区二区三区| 久久久久日韩精品久久久男男| 欧美视频一区二区在线观看| 成人午夜视频免费看| 久久久综合色| 亚洲黄色免费看| 日本日本19xxxⅹhd乱影响| 亚洲精品欧美极品| 在线观看中文字幕亚洲| 日韩欧美在线字幕| 久久亚洲影视婷婷|