ICCV 2025 | 北大王選所推出AnyPortal:像素級操控視頻背景,前景細節(jié)100%保留!

文章鏈接:https://arxiv.org/pdf/2509.07472
主頁:https://gaowenshuo.github.io/AnyPortal/
Git鏈接:https://github.com/gaowenshuo/AnyPortalCode

圖 1.ANYPORTAL,這是一個用于高一致性視頻背景替換和前景重新照明的免訓練框架。給定輸入的前景視頻和背景的文本或圖像提示,本方法在和諧的光照下生成具有目標背景的視頻,同時保持前景視頻細節(jié)和內在屬性
亮點直擊
- AnyPortal,一個高效且無需訓練的視頻背景替換框架。
- 設計了一個模塊化流程,該流程集成了最新的預訓練圖像和視頻擴散模型,以結合其優(yōu)勢生成逼真且連貫的視頻。
- 提出了一種新穎的精煉投影算法(Refinement Projection Algorithm),該算法能夠在緊湊的隱空間中實現(xiàn)像素級的細節(jié)操控,從而確保精確的前景保留。
總結速覽


解決的問題
- 核心挑戰(zhàn):現(xiàn)有視頻生成技術難以實現(xiàn)精細化的細節(jié)控制,無法精確對齊用戶意圖,特別是在視頻背景替換任務中。
- 具體問題:
- 前景一致性:替換背景時,難以保持前景主體(如人物、物體)的像素級細節(jié)和外觀一致性,容易出現(xiàn)非預期的改變。
- 時序照明一致性:難以在視頻序列中保持照明效果的時序連貫性。
- 資源限制:專業(yè)綠幕流程成本高昂;基于數(shù)據驅動的視頻方法缺乏高質量的配對視頻數(shù)據集,且模型訓練需要巨大的計算資源。
提出的方案
- 方案名稱:AnyPortal —— 一個零樣本(zero-shot)、無需訓練(training-free)的視頻背景替換框架。
- 核心思路:協(xié)同利用預訓練的圖像擴散模型和視頻擴散模型的各自先驗知識,無需額外訓練。
- 關鍵創(chuàng)新:提出了Refinement Projection Algorithm (RPA, 精煉投影算法),該算法能在隱空間中進行像素級的細節(jié)操控,確保前景細節(jié)的高度一致性。
應用的技術
- 預訓練模型利用:
- 圖像擴散模型 (IC-Light):用于實現(xiàn)高質量的背景生成和照明 harmonization(協(xié)調),使前景與背景的光照融為一體。
- 視頻擴散模型:用于提供強大的時序先驗,保證生成視頻的時序連貫性和動態(tài)真實性。
- Refinement Projection Algorithm (RPA):
- 一種專門為視頻模型設計的算法,通過在隱空間中計算一個投影方向,來同時保證輸入前景細節(jié)的高一致性和生成背景的高質量。
- 克服了直接將圖像控制方法(如DDIM反轉)應用于視頻模型時存在的計算成本高、隱空間壓縮導致操控質量下降等問題。
- 模塊化流程:
- 首先生成一個由IC-Light進行了照明協(xié)調的粗粒度視頻。
- 然后利用預訓練的視頻擴散模型增強其時序一致性。
- 在整個過程中,RPA算法確保對前景的像素級精確控制。
達到的效果
- 高質量輸出:能夠生成具有自然光照和高度時序一致性的高質量視頻,實現(xiàn)“虛擬傳送”效果。
- 精確控制:實現(xiàn)了對前景細節(jié)的像素級保護,避免了不必要的外觀改變。
- 高效實用:
- 無需訓練:完全基于預訓練模型,避免了收集配對數(shù)據和訓練模型的開銷。
- 計算高效:可在單塊24GB消費級GPU上高效運行,降低了使用門檻。
- 靈活通用:支持通過文本描述或背景圖片來指定目標環(huán)境。其模塊化設計易于集成最新的圖像/視頻生成模型,具有良好的可擴展性。
方法
零樣本視頻背景替換
如下圖2所示,本文的框架分為三個階段:(1) 背景生成;(2) 光照協(xié)調;(3) 一致性增強。輸入是一個前景視頻 和一個描述背景的提示詞 。


背景生成


光照協(xié)調





實驗
實現(xiàn)細節(jié)。使用 CogVideoX 作為視頻擴散模型 εθ,并使用 IC-Light作為圖像背景替換模型 δp 和 δI。我們設定 T = 20,并將強光照效果和弱光照效果的 (T?, T?) 分別設為 (0.7T, 0.7T) 和 (0.4T, 0.4T),以滿足不同場景的需求。所有實驗均在單個 NVIDIA 4090 GPU 上進行,并為 CogVideoX 啟用了 CPU 卸載。測試視頻統(tǒng)一調整為 480×720 分辨率,并裁剪為 49 幀以符合 CogVideoX 的規(guī)格要求。每個視頻的推理時間約為 12 分鐘(若關閉 CPU 卸載且 GPU 內存更大,還可進一步加速)。
基線方法。由于目前極少有其他工作完全針對我們所研究的零樣本視頻背景替換任務,我們選擇了以下最相關的基線方法進行比較:
- IC-Light:一種先進的圖像背景替換模型。逐幀應用該模型。
- TokenFlow:一種先進的零樣本文本引導視頻編輯模型。
- Diffusion-As-Shader (DAS):一種多功能視頻生成控制模型。使用其運動遷移功能,該功能通過將輸入視頻的運動遷移到所提供的第一幀圖像來生成新視頻。此處,我們使用 IC-Light 生成第一幀。請注意,以上所有基線方法均為基于擴散的零樣本編輯方法,以確保公平比較。
評估。構建了一個包含 30 個樣本和提示詞的測試集用于評估,并采用以下指標:
- Fram-Acc:基于 CLIP 的余弦相似度在與目標提示詞相比高于源提示詞的視頻幀中所占的比例,用于衡量背景是否成功被編輯。
- Tem-Con:基于 CLIP 的連續(xù)幀間余弦相似度,用于衡量時間一致性。
- ID-Psrv:生成視頻前景細節(jié)的保持程度,通過生成視頻與輸入視頻中人臉(如適用)的身份損失來衡量。
- Mtn-Psrv:生成視頻運動的保持程度,通過生成視頻與輸入視頻之間的點運動跟蹤相似度來衡量。使用 SpatialTracker進行點跟蹤。
對于用戶研究,邀請了 24 位參與者。參與者被要求基于以下四個標準從四種方法中選出最佳結果:
- User-Pmt:結果與提示詞的匹配程度。
- User-Tem:結果的時間一致性。
- User-Psrv:前景細節(jié)和運動保持的完整程度。
- User-Lgt:前景重新打光的質量。
與先進方法的比較
下圖6對所提方法與其他基線方法進行了可視化比較。IC-Light本質上是一種圖像擴散模型,因此天生存在時間不一致性問題。此外,它傾向于對主體進行過度重新打光,甚至改變固有屬性(如衣服和頭巾的顏色)。TokenFlow表現(xiàn)出有限的編輯能力和不足的前景細節(jié)控制能力,而 DAS則無法保持對前景運動動態(tài)和固有外觀屬性的控制。相比之下,本文的方法在實現(xiàn)高質量背景替換和前景重新打光的同時,確保了時間一致性和前景細節(jié)一致性。

下表1給出了定量評估結果。IC-Light 實現(xiàn)了最佳的 Fram-Acc,這是因為它專門針對背景替換任務進行了訓練,無需考慮時間一致性。本文的方法取得了第二佳的 Fram-Acc,并在所有其他指標和用戶偏好上均獲得最佳結果,在單幀重新打光質量和整體視頻流暢性之間取得了良好平衡。

消融研究
為驗證不同模塊對整體性能的貢獻,我們系統(tǒng)地禁用了框架中的特定模塊。結果報告于上圖4、5,下圖7、8及下表2。




更多結果



與Light-A-Video的比較。在下圖10中進一步提供了與同期工作Light-A-Video的視覺對比。兩種方法均基于CogVideoX,生成質量相當。然而,Light-A-Video的CogVideoX實現(xiàn)僅能對現(xiàn)有背景進行重新打光,而本文的方法能生成新的背景內容。

局限性
盡管ANYPORTAL表現(xiàn)出良好的效果,但仍存在若干局限性(圖11為一個典型示例):

(1)低質量輸入(如低分辨率/模糊視頻)會減少高頻細節(jié)的遷移,導致結果模糊(例如圖11中頭發(fā)部分);(2)前景-背景邊界不清晰會導致修復結果不匹配,并在主體周圍產生擴大化的模糊區(qū)域;(3)快速運動會對擴散模型帶來挑戰(zhàn),在左臂等部位引發(fā)偽影。
結論與展望
AnyPortal,一個用于視頻背景替換與前景光照調整的零樣本框架。該方法無需任務特定訓練,即可實現(xiàn)高度時間一致性與細節(jié)保真度。具體而言,通過整合運動感知視頻擴散模型以生成背景,擴展圖像Relighting模型并引入跨幀注意力機制,同時提出細化投影算法(Refinement Projectation Algorithm)在隱空間中保持前景細節(jié)。實驗表明,本方法在光照融合與時間一致性方面均優(yōu)于現(xiàn)有方法。
未來的一個可能方向是探索將大型視頻擴散模型中的時序先驗知識拓展至更多視頻編輯任務中,例如顏色調整、風格化、人臉屬性編輯與視頻修復等。
本文轉自AI生成未來 ,作者:AI生成未來

















