視頻生成實時拖拽一切!南洋理工DragStream實現(xiàn)拖一下就能改大片,告別從頭渲染!

論文鏈接:https://arxiv.org/pdf/2510.03550

REVEL 任務(wù)示例上圖所示的流式視頻處理結(jié)果包括編輯和動畫,并帶有對象平移("Trans")、變形("Defor")和旋轉(zhuǎn)("Rot")等拖動效果,均由我們的 DragStream 方法生成。
亮點直擊
- 流式拖拽導(dǎo)向交互視頻操作(REVEL),這是一項新任務(wù),使用戶能夠在視頻生成過程中隨時拖動任何對象,從而通過拖拽式操作實現(xiàn)對視頻生成模型(VDMs)輸出的流式細粒度控制
- 無訓(xùn)練范式下解決 REVEL 有兩個關(guān)鍵挑戰(zhàn):i) 拖拽引起的擾動導(dǎo)致潛在分布嚴重漂移并中止拖拽過程;ii) 流式拖拽受到上下文幀的干擾,導(dǎo)致視覺上不自然的結(jié)果
- DragStream,結(jié)合了空間-頻率選擇性優(yōu)化機制和自適應(yīng)分布自校正策略,有效抑制上下文干擾并減輕潛在code中的分布漂移
- 大量實驗證明本方法在解決 REVEL 中的有效性,實現(xiàn)高質(zhì)量的流式拖拽操作,保持無訓(xùn)練特性,并提供與現(xiàn)有自回歸 VDMs 的即插即用集成
總結(jié)速覽
解決的問題
- 自回歸視頻擴散模型的輸出難以實現(xiàn)流式、細粒度的控制,導(dǎo)致難以確保其始終符合用戶的期望。
- 拖拽操作引起的擾動會導(dǎo)致潛在空間的分布漂移,影響生成過程的穩(wěn)定性。
- 流式拖拽容易受到上下文幀的干擾,導(dǎo)致視覺效果不自然。
提出的方案
- 提出了一項新任務(wù)——流式拖拽導(dǎo)向交互視頻操作(REVEL),允許用戶通過細粒度的交互式拖拽隨時修改生成的視頻。
- 開發(fā)了一種無訓(xùn)練的方法——DragStream,結(jié)合空間-頻率選擇性優(yōu)化(SFSO)機制和自適應(yīng)分布自校正(ADSR)策略。
應(yīng)用的技術(shù)
- 空間-頻率選擇性優(yōu)化(SFSO)機制:通過選擇性傳播視覺線索,減輕上下文信息的干擾。
- 自適應(yīng)分布自校正(ADSR)策略:利用相鄰幀的統(tǒng)計數(shù)據(jù),限制潛在嵌入的漂移。
達到的效果
- DragStream 在解決 REVEL 任務(wù)中表現(xiàn)出色,實現(xiàn)了高質(zhì)量的流式拖拽操作。
- 保持無訓(xùn)練特性,提供了與現(xiàn)有自回歸視頻擴散模型的即插即用集成。
- 實驗結(jié)果展示了該方法在流式拖拽操作中的有效性,成功抑制了上下文干擾和潛在分布漂移。
流式拖拽導(dǎo)向交互視頻操作
首先在定義 1 中給出流式拖拽導(dǎo)向交互視頻操作(REVEL)任務(wù)的定義。

本文認為當前基于拖拽的視頻操作存在一個主要限制,即缺乏拖拽式操作的統(tǒng)一定義。現(xiàn)有的基于拖拽的視頻編輯方法側(cè)重于在生成的視頻中拖拽對象,目標是產(chǎn)生平移、變形和旋轉(zhuǎn)的效果。然而,這些方法通常無法允許用戶通過拖拽來動畫化視頻幀。相比之下,軌跡引導(dǎo)的視頻生成模型旨在通過沿軌跡移動對象來生成視頻片段,其運動由 VDMs 渲染;然而,它們不足以靈活地允許用戶具體確定拖拽操作的類型,例如變形對象形狀、平移對象或圍繞中心點旋轉(zhuǎn)。由于這兩種設(shè)置都是不完整的,本文在命題 1 中提出統(tǒng)一拖拽式視頻操作。
命題 1(統(tǒng)一拖拽式視頻操作) 本文將拖拽式視頻操作統(tǒng)一為使用戶能夠通過拖拽式操作對視頻幀進行編輯和動畫化,同時支持用戶指定的平移、變形和 2D/3D 旋轉(zhuǎn)效果。
在這里,編輯指的是直接修改生成的視頻幀的內(nèi)容,而動畫則表示根據(jù)用戶給定的拖拽指令從現(xiàn)有幀生成視頻片段。
備注 2. 在此,闡明本文的 REVEL 任務(wù)與之前的基于拖拽的視頻編輯和生成工作的區(qū)別。DragVideo 是最近一種典型的基于拖拽的視頻編輯方法。與本文的 REVEL 不同,它僅支持基于拖拽的編輯,不允許用戶動畫化視頻幀。此外,DragVideo 不支持 2D 對象旋轉(zhuǎn)操作。SG-I2V 和 Tora 是兩個典型的軌跡引導(dǎo)視頻生成方法。它們都僅專注于通過沿軌跡移動對象來動畫化圖像,使用 VDM 渲染的運動,而不允許用戶靈活地實現(xiàn)更細粒度的拖拽效果,例如編輯對象形狀或圍繞中心點以特定角度旋轉(zhuǎn)對象。最重要的是,這些方法都無法以流式方式實現(xiàn)拖拽導(dǎo)向的視頻編輯和動畫。
建議從無訓(xùn)練的角度解決 REVEL,并識別出存在的兩個關(guān)鍵挑戰(zhàn),分別總結(jié)為挑戰(zhàn) 1 和挑戰(zhàn) 2。
挑戰(zhàn) 1(潛在分布漂移) 拖拽操作引起的擾動容易在自回歸 VDMs 的潛在空間中積累,導(dǎo)致潛在代碼的嚴重分布漂移,從而中斷拖拽過程。
在下圖 2 (a) 中展示了挑戰(zhàn) 1。圖中顯示,一旦應(yīng)用拖拽操作,潛在嵌入的均值和方差顯著變化,而最大值和最小值顯示出明顯的波動。這種不穩(wěn)定性驅(qū)使?jié)撛谇度耄ā皐/o ADSR+drag”)偏離原始分布(“Ref: w/o Drag”),從而擾亂拖拽過程。本文發(fā)現(xiàn)潛在分布漂移可能導(dǎo)致對象屬性的不良變化,例如顏色和類別,如圖 2 (a) 的第二行所示。使用本文的 ADSR 策略(“w/ ADSR+Drag”)可以有效抑制分布漂移。

挑戰(zhàn) 2(上下文干擾) 流式拖拽容易受到上下文幀的干擾,誤導(dǎo) VDMs 生成視覺上不自然的內(nèi)容,從而顯著降低視頻質(zhì)量。
在上圖 2 (b) 中展示了挑戰(zhàn) 2。上圖 2 (b) 的結(jié)果清楚地表明,來自前一幀的視覺線索可能嚴重誤導(dǎo)后續(xù)的生成,例如,手柄點周圍的特征錯誤地引導(dǎo)模型在兔子上生成重復(fù)的耳朵和在汽車上生成偽影(“w/o SFSO”),這顯然降低了生成視頻的質(zhì)量。本文將在下文中介紹如何使用本文的 SFSO 策略來克服上下文干擾。
方法論
DRAGSTREAM: 在無訓(xùn)練范式中隨時隨地拖拽任何內(nèi)容
總體流程


其中,


自適應(yīng)分布自校正
本文提出了一種簡單而有效的策略,自適應(yīng)分布自校正(ADSR),以解決由累積擾動引起的潛在分布漂移問題——挑戰(zhàn) 1,如命題 2 所述。


空間-頻率選擇性優(yōu)化
本文設(shè)計了一種空間-頻率選擇性優(yōu)化(SFSO)機制來克服挑戰(zhàn) 2。它充分利用上下文幀的信息,同時通過在迭代潛在區(qū)域優(yōu)化過程中在頻率和空間域中進行信息選擇來減輕其干擾。
高頻信息雖然捕捉到更精細的視覺信息,但由于攜帶更多噪聲擾動,往往會誤導(dǎo) VDMs 產(chǎn)生不自然的結(jié)果(Fan et al. (2019); Li et al. (2020))。相比之下,低頻信息雖然更穩(wěn)健,但缺乏足夠的細粒度視覺細節(jié)。本文認為,在拖動導(dǎo)向的優(yōu)化過程中,關(guān)鍵是利用高頻和低頻信息的優(yōu)勢,同時緩解其固有的局限性。因此,本文在命題 3 中提出了一種可切換頻域選擇(SFS)策略。

在命題 4 中,本文還設(shè)計了一種基于關(guān)鍵性的空間域選擇(CSS)策略,以防止在可編輯區(qū)域內(nèi)對背景進行過度優(yōu)化,這有助于進一步減少不自然的內(nèi)容。
命題 4(基于關(guān)鍵性的空間域選擇) 本文在空間域中選擇性地反向傳播梯度,避免拖動過程不當影響背景:


實驗
由于 REVEL 是一項新任務(wù),目前沒有現(xiàn)有的方法專門針對它進行設(shè)計。本文調(diào)整了兩種無需訓(xùn)練的方法,SG-I2V 和 DragVideo,以適應(yīng) REVEL 任務(wù)進行比較。有關(guān)本文的實驗設(shè)置的詳細信息,包括實現(xiàn)細節(jié)、評估指標和對比基線,請參閱附錄的 C 節(jié)。
主要結(jié)果
可視化結(jié)果。 本文方法實現(xiàn)的可視化結(jié)果如下圖 4 所示。與 SG-I2V 和 DragVideo 相比,本文的 DragStream 明顯產(chǎn)生了更自然和更高質(zhì)量的流式拖動風格視頻操作結(jié)果。例如,它更好地保留了物體的外觀和結(jié)構(gòu),同時表現(xiàn)出更少的視覺失真、偽影和拖動失敗。這些結(jié)果驗證了本文的方法在解決 REVEL 任務(wù)中的有效性。

定量性能。 下圖 5 中的定量結(jié)果表明,本文的 DragStream 始終優(yōu)于 SG-I2V 和 DragVideo。一方面,最低的 FID 和 FVD 分數(shù)表明本文的 DragStream 實現(xiàn)了比 SG-I2V 和 DragVideo 更高的視頻質(zhì)量。另一方面,獲得最佳的 ObjMC 和 DAI 分數(shù)表明本文的方法實現(xiàn)了更精確的物體拖動,與上圖 4 中顯示的結(jié)果一致。

消融研究
在下圖 6 中,本文進行了消融研究以調(diào)查每個組件的影響。結(jié)果表明,完整的方法實現(xiàn)了最佳性能。舍棄 SFSO(“w/ ADSR”)導(dǎo)致顯著的性能下降,而進一步移除 ADSR(“w/o ADSR, SFSO”)則導(dǎo)致更大的下降。這些結(jié)果表明了 ADSR 策略和 SFSO 機制的重要性。同樣,使用完整的 SFSO 優(yōu)于單獨使用 CSS 或 SFS。本文還在上圖 7 中分析了截止頻率的影響。可以看到,小的和大的截止頻率都導(dǎo)致性能下降。相比之下,本文的可切換頻率選擇策略實現(xiàn)了最佳性能,因為它充分利用了上下文信息,同時通過防止高頻分量主導(dǎo)拖動過程來減輕其干擾。

結(jié)論
本文提出了流式拖動導(dǎo)向交互視頻操作(REVEL),這是一項新任務(wù),旨在允許用戶對自回歸 VDM 的輸出實現(xiàn)流式拖動風格的控制。為了解決 REVEL,本文提出了一種無需訓(xùn)練的方法,DragStream,該方法采用自適應(yīng)分布自校正(ADSR)策略并設(shè)計了空間頻率選擇優(yōu)化(SFSO)機制。ADSR 通過利用相鄰幀的統(tǒng)計數(shù)據(jù),有效地限制了潛在嵌入的漂移,而 SFSO 通過在空間和頻率域內(nèi)選擇性地傳播視覺線索,充分利用上下文信息,同時減輕其干擾。這兩種策略使本文的方法在 REVEL 上實現(xiàn)了卓越的性能,并能夠無縫集成到現(xiàn)有的自回歸 VDM 中。希望這項工作能夠激發(fā)出更多優(yōu)秀的解決方案來解決流式拖動風格視頻操作問題。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















