視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！

zhangyannni

發(fā)布于 2025-10-20 09:26

瀏覽

0收藏

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2510.03550

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

REVEL 任務(wù)示例上圖所示的流式視頻處理結(jié)果包括編輯和動畫，并帶有對象平移（"Trans"）、變形（"Defor"）和旋轉(zhuǎn)（"Rot"）等拖動效果，均由我們的 DragStream 方法生成。

亮點直擊

流式拖拽導(dǎo)向交互視頻操作（REVEL），這是一項新任務(wù)，使用戶能夠在視頻生成過程中隨時拖動任何對象，從而通過拖拽式操作實現(xiàn)對視頻生成模型（VDMs）輸出的流式細粒度控制
無訓(xùn)練范式下解決 REVEL 有兩個關(guān)鍵挑戰(zhàn)：i) 拖拽引起的擾動導(dǎo)致潛在分布嚴重漂移并中止拖拽過程；ii) 流式拖拽受到上下文幀的干擾，導(dǎo)致視覺上不自然的結(jié)果
DragStream，結(jié)合了空間-頻率選擇性優(yōu)化機制和自適應(yīng)分布自校正策略，有效抑制上下文干擾并減輕潛在code中的分布漂移
大量實驗證明本方法在解決 REVEL 中的有效性，實現(xiàn)高質(zhì)量的流式拖拽操作，保持無訓(xùn)練特性，并提供與現(xiàn)有自回歸 VDMs 的即插即用集成

總結(jié)速覽

解決的問題

自回歸視頻擴散模型的輸出難以實現(xiàn)流式、細粒度的控制，導(dǎo)致難以確保其始終符合用戶的期望。
拖拽操作引起的擾動會導(dǎo)致潛在空間的分布漂移，影響生成過程的穩(wěn)定性。
流式拖拽容易受到上下文幀的干擾，導(dǎo)致視覺效果不自然。

提出的方案

提出了一項新任務(wù)——流式拖拽導(dǎo)向交互視頻操作（REVEL），允許用戶通過細粒度的交互式拖拽隨時修改生成的視頻。
開發(fā)了一種無訓(xùn)練的方法——DragStream，結(jié)合空間-頻率選擇性優(yōu)化（SFSO）機制和自適應(yīng)分布自校正（ADSR）策略。

應(yīng)用的技術(shù)

空間-頻率選擇性優(yōu)化（SFSO）機制：通過選擇性傳播視覺線索，減輕上下文信息的干擾。
自適應(yīng)分布自校正（ADSR）策略：利用相鄰幀的統(tǒng)計數(shù)據(jù)，限制潛在嵌入的漂移。

達到的效果

DragStream 在解決 REVEL 任務(wù)中表現(xiàn)出色，實現(xiàn)了高質(zhì)量的流式拖拽操作。
保持無訓(xùn)練特性，提供了與現(xiàn)有自回歸視頻擴散模型的即插即用集成。
實驗結(jié)果展示了該方法在流式拖拽操作中的有效性，成功抑制了上下文干擾和潛在分布漂移。

流式拖拽導(dǎo)向交互視頻操作

首先在定義 1 中給出流式拖拽導(dǎo)向交互視頻操作（REVEL）任務(wù)的定義。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

本文認為當前基于拖拽的視頻操作存在一個主要限制，即缺乏拖拽式操作的統(tǒng)一定義。現(xiàn)有的基于拖拽的視頻編輯方法側(cè)重于在生成的視頻中拖拽對象，目標是產(chǎn)生平移、變形和旋轉(zhuǎn)的效果。然而，這些方法通常無法允許用戶通過拖拽來動畫化視頻幀。相比之下，軌跡引導(dǎo)的視頻生成模型旨在通過沿軌跡移動對象來生成視頻片段，其運動由 VDMs 渲染；然而，它們不足以靈活地允許用戶具體確定拖拽操作的類型，例如變形對象形狀、平移對象或圍繞中心點旋轉(zhuǎn)。由于這兩種設(shè)置都是不完整的，本文在命題 1 中提出統(tǒng)一拖拽式視頻操作。

命題 1（統(tǒng)一拖拽式視頻操作） 本文將拖拽式視頻操作統(tǒng)一為使用戶能夠通過拖拽式操作對視頻幀進行編輯和動畫化，同時支持用戶指定的平移、變形和 2D/3D 旋轉(zhuǎn)效果。

在這里，編輯指的是直接修改生成的視頻幀的內(nèi)容，而動畫則表示根據(jù)用戶給定的拖拽指令從現(xiàn)有幀生成視頻片段。

備注 2. 在此，闡明本文的 REVEL 任務(wù)與之前的基于拖拽的視頻編輯和生成工作的區(qū)別。DragVideo 是最近一種典型的基于拖拽的視頻編輯方法。與本文的 REVEL 不同，它僅支持基于拖拽的編輯，不允許用戶動畫化視頻幀。此外，DragVideo 不支持 2D 對象旋轉(zhuǎn)操作。SG-I2V 和 Tora 是兩個典型的軌跡引導(dǎo)視頻生成方法。它們都僅專注于通過沿軌跡移動對象來動畫化圖像，使用 VDM 渲染的運動，而不允許用戶靈活地實現(xiàn)更細粒度的拖拽效果，例如編輯對象形狀或圍繞中心點以特定角度旋轉(zhuǎn)對象。最重要的是，這些方法都無法以流式方式實現(xiàn)拖拽導(dǎo)向的視頻編輯和動畫。

建議從無訓(xùn)練的角度解決 REVEL，并識別出存在的兩個關(guān)鍵挑戰(zhàn)，分別總結(jié)為挑戰(zhàn) 1 和挑戰(zhàn) 2。

挑戰(zhàn) 1（潛在分布漂移） 拖拽操作引起的擾動容易在自回歸 VDMs 的潛在空間中積累，導(dǎo)致潛在代碼的嚴重分布漂移，從而中斷拖拽過程。

在下圖 2 (a) 中展示了挑戰(zhàn) 1。圖中顯示，一旦應(yīng)用拖拽操作，潛在嵌入的均值和方差顯著變化，而最大值和最小值顯示出明顯的波動。這種不穩(wěn)定性驅(qū)使?jié)撛谇度耄ā皐/o ADSR+drag”）偏離原始分布（“Ref: w/o Drag”），從而擾亂拖拽過程。本文發(fā)現(xiàn)潛在分布漂移可能導(dǎo)致對象屬性的不良變化，例如顏色和類別，如圖 2 (a) 的第二行所示。使用本文的 ADSR 策略（“w/ ADSR+Drag”）可以有效抑制分布漂移。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

挑戰(zhàn) 2（上下文干擾） 流式拖拽容易受到上下文幀的干擾，誤導(dǎo) VDMs 生成視覺上不自然的內(nèi)容，從而顯著降低視頻質(zhì)量。

在上圖 2 (b) 中展示了挑戰(zhàn) 2。上圖 2 (b) 的結(jié)果清楚地表明，來自前一幀的視覺線索可能嚴重誤導(dǎo)后續(xù)的生成，例如，手柄點周圍的特征錯誤地引導(dǎo)模型在兔子上生成重復(fù)的耳朵和在汽車上生成偽影（“w/o SFSO”），這顯然降低了生成視頻的質(zhì)量。本文將在下文中介紹如何使用本文的 SFSO 策略來克服上下文干擾。

方法論

DRAGSTREAM: 在無訓(xùn)練范式中隨時隨地拖拽任何內(nèi)容

總體流程

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

其中，

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

自適應(yīng)分布自校正

本文提出了一種簡單而有效的策略，自適應(yīng)分布自校正（ADSR），以解決由累積擾動引起的潛在分布漂移問題——挑戰(zhàn) 1，如命題 2 所述。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

空間-頻率選擇性優(yōu)化

本文設(shè)計了一種空間-頻率選擇性優(yōu)化（SFSO）機制來克服挑戰(zhàn) 2。它充分利用上下文幀的信息，同時通過在迭代潛在區(qū)域優(yōu)化過程中在頻率和空間域中進行信息選擇來減輕其干擾。

高頻信息雖然捕捉到更精細的視覺信息，但由于攜帶更多噪聲擾動，往往會誤導(dǎo) VDMs 產(chǎn)生不自然的結(jié)果（Fan et al. (2019); Li et al. (2020)）。相比之下，低頻信息雖然更穩(wěn)健，但缺乏足夠的細粒度視覺細節(jié)。本文認為，在拖動導(dǎo)向的優(yōu)化過程中，關(guān)鍵是利用高頻和低頻信息的優(yōu)勢，同時緩解其固有的局限性。因此，本文在命題 3 中提出了一種可切換頻域選擇（SFS）策略。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

在命題 4 中，本文還設(shè)計了一種基于關(guān)鍵性的空間域選擇（CSS）策略，以防止在可編輯區(qū)域內(nèi)對背景進行過度優(yōu)化，這有助于進一步減少不自然的內(nèi)容。

命題 4（基于關(guān)鍵性的空間域選擇） 本文在空間域中選擇性地反向傳播梯度，避免拖動過程不當影響背景：

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

實驗

由于 REVEL 是一項新任務(wù)，目前沒有現(xiàn)有的方法專門針對它進行設(shè)計。本文調(diào)整了兩種無需訓(xùn)練的方法，SG-I2V 和 DragVideo，以適應(yīng) REVEL 任務(wù)進行比較。有關(guān)本文的實驗設(shè)置的詳細信息，包括實現(xiàn)細節(jié)、評估指標和對比基線，請參閱附錄的 C 節(jié)。

主要結(jié)果

可視化結(jié)果。 本文方法實現(xiàn)的可視化結(jié)果如下圖 4 所示。與 SG-I2V 和 DragVideo 相比，本文的 DragStream 明顯產(chǎn)生了更自然和更高質(zhì)量的流式拖動風格視頻操作結(jié)果。例如，它更好地保留了物體的外觀和結(jié)構(gòu)，同時表現(xiàn)出更少的視覺失真、偽影和拖動失敗。這些結(jié)果驗證了本文的方法在解決 REVEL 任務(wù)中的有效性。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

定量性能。 下圖 5 中的定量結(jié)果表明，本文的 DragStream 始終優(yōu)于 SG-I2V 和 DragVideo。一方面，最低的 FID 和 FVD 分數(shù)表明本文的 DragStream 實現(xiàn)了比 SG-I2V 和 DragVideo 更高的視頻質(zhì)量。另一方面，獲得最佳的 ObjMC 和 DAI 分數(shù)表明本文的方法實現(xiàn)了更精確的物體拖動，與上圖 4 中顯示的結(jié)果一致。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

消融研究

在下圖 6 中，本文進行了消融研究以調(diào)查每個組件的影響。結(jié)果表明，完整的方法實現(xiàn)了最佳性能。舍棄 SFSO（“w/ ADSR”）導(dǎo)致顯著的性能下降，而進一步移除 ADSR（“w/o ADSR, SFSO”）則導(dǎo)致更大的下降。這些結(jié)果表明了 ADSR 策略和 SFSO 機制的重要性。同樣，使用完整的 SFSO 優(yōu)于單獨使用 CSS 或 SFS。本文還在上圖 7 中分析了截止頻率的影響。可以看到，小的和大的截止頻率都導(dǎo)致性能下降。相比之下，本文的可切換頻率選擇策略實現(xiàn)了最佳性能，因為它充分利用了上下文信息，同時通過防止高頻分量主導(dǎo)拖動過程來減輕其干擾。

視頻生成實時拖拽一切！南洋理工DragStream實現(xiàn)拖一下就能改大片，告別從頭渲染！-AI.x社區(qū)

結(jié)論

本文提出了流式拖動導(dǎo)向交互視頻操作（REVEL），這是一項新任務(wù)，旨在允許用戶對自回歸 VDM 的輸出實現(xiàn)流式拖動風格的控制。為了解決 REVEL，本文提出了一種無需訓(xùn)練的方法，DragStream，該方法采用自適應(yīng)分布自校正（ADSR）策略并設(shè)計了空間頻率選擇優(yōu)化（SFSO）機制。ADSR 通過利用相鄰幀的統(tǒng)計數(shù)據(jù)，有效地限制了潛在嵌入的漂移，而 SFSO 通過在空間和頻率域內(nèi)選擇性地傳播視覺線索，充分利用上下文信息，同時減輕其干擾。這兩種策略使本文的方法在 REVEL 上實現(xiàn)了卓越的性能，并能夠無縫集成到現(xiàn)有的自回歸 VDM 中。希望這項工作能夠激發(fā)出更多優(yōu)秀的解決方案來解決流式拖動風格視頻操作問題。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/7GdIUaYDtQHqMe816FOGVw??

標簽

視頻生成

模型

贊

回復(fù)