相機(jī)運(yùn)動(dòng)誤差降低40%！DualCamCtrl：給視頻生成裝上「深度相機(jī)」，讓運(yùn)鏡更「聽(tīng)話」

2025-12-22 08:58:00

DualCamCtrl 提出了一種集成深度信息的雙分支視頻擴(kuò)散模型，實(shí)現(xiàn)了更精準(zhǔn)的相機(jī)控制視頻生成。

本研究的共同第一作者是來(lái)自于香港科技大學(xué)（廣州）EnVision Research 的張鴻飛（研究助理）和陳康豪（博士研究生），兩位研究者均師從陳穎聰教授。

你的生成模型真的「懂幾何」嗎？還是只是在假裝對(duì)齊相機(jī)軌跡？

當(dāng)前眾多視頻生成模型雖宣稱具備「相機(jī)運(yùn)動(dòng)控制」能力，但其控制信號(hào)通常僅依賴于相機(jī)位姿。雖近期工作通過(guò)逐像素射線方向（Ray Condition）編碼了運(yùn)動(dòng)信息，但由于模型仍需隱式推斷三維結(jié)構(gòu)，本質(zhì)上仍缺乏對(duì)場(chǎng)景的顯式幾何理解。這一局限性導(dǎo)致了相機(jī)運(yùn)動(dòng)的不一致——模型受限于外觀與結(jié)構(gòu)兩種表征信息的耦合，無(wú)法充分捕捉場(chǎng)景的底層幾何特征。

鑒于上述挑戰(zhàn)，來(lái)自香港科技大學(xué)、復(fù)旦大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的端到端幾何感知擴(kuò)散模型框架 DualCamCtrl。該研究針對(duì)現(xiàn)有方法在場(chǎng)景理解與幾何感知方面的不足，創(chuàng)新性地設(shè)計(jì)了一個(gè)「雙分支擴(kuò)散架構(gòu)」，能夠同步生成與鏡頭運(yùn)動(dòng)一致的 RGB 與深度序列。進(jìn)一步地，為實(shí)現(xiàn) RGB 與深度兩種模態(tài)的高效協(xié)同，DualCamCtrl 提出了語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制（Semantic Guided Mutual Alignment），該機(jī)制以語(yǔ)義信息為指導(dǎo)，在雙向的交互中實(shí)現(xiàn)了更好的模態(tài)融合。

這些設(shè)計(jì)使 DualCamCtrl 能夠更好地解耦外觀與幾何建模，從而生成更嚴(yán)格遵循指定相機(jī)軌跡的視頻。大量實(shí)驗(yàn)表明，DualCamCtrl 在相機(jī)運(yùn)動(dòng)一致性方面顯著優(yōu)于現(xiàn)有方法，相機(jī)運(yùn)動(dòng)誤差降低超過(guò) 40%。

論文標(biāo)題： DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
項(xiàng)目主頁(yè)：https://soyouthinkyoucantell.github.io/dualcamctrl-page/
論文鏈接：https://www.arxiv.org/abs/2511.23127
Github 倉(cāng)庫(kù)：https://github.com/EnVision-Research/DualCamCtrl
Huggingface 模型：https://huggingface.co/FayeHongfeiZhang/DualCamCtrl

雙分支幾何感知擴(kuò)散模型

總體而言，DualCamCtrl 巧妙地采用了 雙分支視頻擴(kuò)散框架（Dual Branch Video Diffusion Framework），其中一條分支負(fù)責(zé)生成 RGB 表示，另一條分支負(fù)責(zé)生成深度表示，兩種模態(tài)通過(guò)提出的 SIGMA 機(jī)制進(jìn)行融合。

該設(shè)計(jì)使得模型能夠從單張輸入圖像及其對(duì)應(yīng)深度圖中，同步推斷出視頻級(jí)別的 RGB 與深度隱空間表征（Latent Representation），不僅最大限度降低了模態(tài)間的相互干擾，更使深度信息得以貫穿整個(gè)視頻生成過(guò)程，實(shí)現(xiàn)連貫的幾何引導(dǎo)。

SIGMA 機(jī)制以及雙階段訓(xùn)練

在多模態(tài)可控視頻生成任務(wù)中，訓(xùn)練與融合策略是關(guān)鍵。DualCamCtrl 的核心設(shè)計(jì)正是基于這一認(rèn)識(shí)，包含兩部分：一是提出 語(yǔ)義引導(dǎo)互對(duì)齊（SIGMA）融合機(jī)制，促進(jìn) RGB 與深度模態(tài)在生成過(guò)程中的有效協(xié)同；二是采用分階段訓(xùn)練策略——首階段學(xué)習(xí)解耦的多模態(tài)表征，次階段專(zhuān)注跨模態(tài)融合建模。

該設(shè)計(jì)使模型在復(fù)雜相機(jī)運(yùn)動(dòng)下，能同時(shí)保持外觀連貫與三維幾何準(zhǔn)確，實(shí)現(xiàn)幾何感知的可控生成。

語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制

圖3. SIGMA融合策略的動(dòng)機(jī)與優(yōu)勢(shì)對(duì)比示意圖。

基于雙分支框架，RGB 分支與深度分支分別生成對(duì)應(yīng)的視頻序列和對(duì)應(yīng)深度序列。盡管兩者輸入相同，但它們獨(dú)立演化易導(dǎo)致輸出不一致，因此需要有效的融合與對(duì)齊策略（圖 3.a）。

然而該團(tuán)隊(duì)發(fā)現(xiàn)：?jiǎn)蜗驅(qū)R（One-Way Alignment）易損失語(yǔ)義一致性，幾何引導(dǎo)對(duì)齊（Geometry-Guided Alignment）則過(guò)度強(qiáng)調(diào)幾何表征而破壞了運(yùn)動(dòng)的一致性。為此，該團(tuán)隊(duì)提出了 語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制（SIGMA）。

SIGMA 采用語(yǔ)義引導(dǎo)的雙向設(shè)計(jì)：淺層以 RGB 特征錨定語(yǔ)義結(jié)構(gòu)，深層則引入深度反饋優(yōu)化幾何表達(dá)。該方法基于兩個(gè) key insights（圖 3.b、3.c）：

語(yǔ)義優(yōu)先的重要性： 外觀特征應(yīng)在早期占主導(dǎo)地位以保持語(yǔ)義的穩(wěn)定，而深度信號(hào)作為后期補(bǔ)充來(lái)優(yōu)化幾何結(jié)構(gòu)。
雙向交互的重要性： 兩分支相互反饋可避免單向?qū)R的失衡，實(shí)現(xiàn)更穩(wěn)定的隱空間表征對(duì)齊。

分階段訓(xùn)練策略

為實(shí)現(xiàn) RGB 與深度模態(tài)穩(wěn)健生成與有效協(xié)同的目標(biāo)，DualCamCtrl 采用分階段訓(xùn)練策略（Two-stage training），為每個(gè)階段的學(xué)習(xí)設(shè)置不同側(cè)重點(diǎn)：

解耦訓(xùn)練階段（Decoupled Stage）： 核心目標(biāo)是使 RGB 與深度分支分別專(zhuān)注學(xué)習(xí)外觀與幾何表征。為此，模型使用共享預(yù)訓(xùn)練權(quán)重初始化，并利用 state-of-the-art (SOTA) 視頻深度估計(jì)模型 Video Depth Anything 生成的深度特征進(jìn)行監(jiān)督。此階段禁止模態(tài)間交互，確保表征演化的獨(dú)立性。
融合訓(xùn)練階段（Fusion Stage）： 在兩個(gè)分支具備基礎(chǔ)能力后，核心目標(biāo)轉(zhuǎn)向?qū)崿F(xiàn)外觀與幾何信息的互補(bǔ)增強(qiáng)。為此，模型引入零初始化的融合模塊，逐步建立跨模態(tài)交互，并通過(guò)聯(lián)合優(yōu)化 RGB 與深度目標(biāo)函數(shù)，實(shí)現(xiàn)多模態(tài)表征的對(duì)齊與協(xié)同。

圖2：兩階段訓(xùn)練的效果：?jiǎn)坞A段模型因無(wú)法充分收斂（上圖），導(dǎo)致其相機(jī)軌跡對(duì)齊效果欠佳（下圖）。這凸顯了先解耦學(xué)習(xí)外觀與幾何表征的兩階段策略的有效性。

實(shí)驗(yàn)結(jié)果

在定量和定性比較中，DualCamCtrl 在各項(xiàng)指標(biāo)上均顯著優(yōu)于當(dāng)前的 SOTA 方法。

定性分析：

在相同輸入條件下，DualCamCtrl 在相機(jī)運(yùn)動(dòng)的對(duì)齊效果和視頻生成的視覺(jué)效果上均顯著優(yōu)于現(xiàn)有先進(jìn)方法。圖中“+”標(biāo)記為視覺(jué)對(duì)比的定位參考點(diǎn)。

定量分析：

Image to Video 定量分析結(jié)果

Text to Video 定量分析結(jié)果

總結(jié)

DualCamCtrl 提出了一種集成深度信息的雙分支視頻擴(kuò)散模型，實(shí)現(xiàn)了更精準(zhǔn)的相機(jī)控制視頻生成。通過(guò)引入語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制（SIGMA）與兩階段訓(xùn)練策略，該模型有效同步了 RGB 序列與深度序列的生成和融合，顯著增強(qiáng)了模型的幾何感知能力。實(shí)驗(yàn)表明，該方法在相機(jī)一致性誤差上比先前方法降低超過(guò) 40%，為相機(jī)控制視頻生成提供了新的技術(shù)思路，并有望推動(dòng)其他可控視頻生成任務(wù)的發(fā)展。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心