相機(jī)運(yùn)動(dòng)誤差降低40%!DualCamCtrl:給視頻生成裝上「深度相機(jī)」,讓運(yùn)鏡更「聽(tīng)話」
本研究的共同第一作者是來(lái)自于香港科技大學(xué)(廣州)EnVision Research 的張鴻飛(研究助理)和陳康豪(博士研究生),兩位研究者均師從陳穎聰教授。
你的生成模型真的「懂幾何」嗎?還是只是在假裝對(duì)齊相機(jī)軌跡?
當(dāng)前眾多視頻生成模型雖宣稱具備「相機(jī)運(yùn)動(dòng)控制」能力,但其控制信號(hào)通常僅依賴于相機(jī)位姿。雖近期工作通過(guò)逐像素射線方向(Ray Condition)編碼了運(yùn)動(dòng)信息,但由于模型仍需隱式推斷三維結(jié)構(gòu),本質(zhì)上仍缺乏對(duì)場(chǎng)景的顯式幾何理解。這一局限性導(dǎo)致了相機(jī)運(yùn)動(dòng)的不一致——模型受限于外觀與結(jié)構(gòu)兩種表征信息的耦合,無(wú)法充分捕捉場(chǎng)景的底層幾何特征。
鑒于上述挑戰(zhàn),來(lái)自香港科技大學(xué)、復(fù)旦大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的端到端幾何感知擴(kuò)散模型框架 DualCamCtrl。該研究針對(duì)現(xiàn)有方法在場(chǎng)景理解與幾何感知方面的不足,創(chuàng)新性地設(shè)計(jì)了一個(gè)「雙分支擴(kuò)散架構(gòu)」,能夠同步生成與鏡頭運(yùn)動(dòng)一致的 RGB 與深度序列。進(jìn)一步地,為實(shí)現(xiàn) RGB 與深度兩種模態(tài)的高效協(xié)同,DualCamCtrl 提出了語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制(Semantic Guided Mutual Alignment),該機(jī)制以語(yǔ)義信息為指導(dǎo),在雙向的交互中實(shí)現(xiàn)了更好的模態(tài)融合。
這些設(shè)計(jì)使 DualCamCtrl 能夠更好地解耦外觀與幾何建模,從而生成更嚴(yán)格遵循指定相機(jī)軌跡的視頻。大量實(shí)驗(yàn)表明,DualCamCtrl 在相機(jī)運(yùn)動(dòng)一致性方面顯著優(yōu)于現(xiàn)有方法,相機(jī)運(yùn)動(dòng)誤差降低超過(guò) 40%。

- 論文標(biāo)題: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
- 項(xiàng)目主頁(yè):https://soyouthinkyoucantell.github.io/dualcamctrl-page/
- 論文鏈接:https://www.arxiv.org/abs/2511.23127
- Github 倉(cāng)庫(kù):https://github.com/EnVision-Research/DualCamCtrl
- Huggingface 模型:https://huggingface.co/FayeHongfeiZhang/DualCamCtrl

雙分支幾何感知擴(kuò)散模型

總體而言,DualCamCtrl 巧妙地采用了 雙分支視頻擴(kuò)散框架(Dual Branch Video Diffusion Framework),其中一條分支負(fù)責(zé)生成 RGB 表示,另一條分支負(fù)責(zé)生成深度表示,兩種模態(tài)通過(guò)提出的 SIGMA 機(jī)制進(jìn)行融合。
該設(shè)計(jì)使得模型能夠從單張輸入圖像及其對(duì)應(yīng)深度圖中,同步推斷出視頻級(jí)別的 RGB 與深度隱空間表征(Latent Representation),不僅最大限度降低了模態(tài)間的相互干擾,更使深度信息得以貫穿整個(gè)視頻生成過(guò)程,實(shí)現(xiàn)連貫的幾何引導(dǎo)。
SIGMA 機(jī)制以及雙階段訓(xùn)練
在多模態(tài)可控視頻生成任務(wù)中,訓(xùn)練與融合策略是關(guān)鍵。DualCamCtrl 的核心設(shè)計(jì)正是基于這一認(rèn)識(shí),包含兩部分:一是提出 語(yǔ)義引導(dǎo)互對(duì)齊(SIGMA)融合機(jī)制,促進(jìn) RGB 與深度模態(tài)在生成過(guò)程中的有效協(xié)同;二是采用分階段訓(xùn)練策略——首階段學(xué)習(xí)解耦的多模態(tài)表征,次階段專(zhuān)注跨模態(tài)融合建模。
該設(shè)計(jì)使模型在復(fù)雜相機(jī)運(yùn)動(dòng)下,能同時(shí)保持外觀連貫與三維幾何準(zhǔn)確,實(shí)現(xiàn)幾何感知的可控生成。
語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制

圖3. SIGMA融合策略的動(dòng)機(jī)與優(yōu)勢(shì)對(duì)比示意圖。
基于雙分支框架,RGB 分支與深度分支分別生成對(duì)應(yīng)的視頻序列和對(duì)應(yīng)深度序列。盡管兩者輸入相同,但它們獨(dú)立演化易導(dǎo)致輸出不一致,因此需要有效的融合與對(duì)齊策略(圖 3.a)。
然而該團(tuán)隊(duì)發(fā)現(xiàn):?jiǎn)蜗驅(qū)R(One-Way Alignment)易損失語(yǔ)義一致性,幾何引導(dǎo)對(duì)齊(Geometry-Guided Alignment)則過(guò)度強(qiáng)調(diào)幾何表征而破壞了運(yùn)動(dòng)的一致性。為此,該團(tuán)隊(duì)提出了 語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制(SIGMA)。
SIGMA 采用語(yǔ)義引導(dǎo)的雙向設(shè)計(jì):淺層以 RGB 特征錨定語(yǔ)義結(jié)構(gòu),深層則引入深度反饋優(yōu)化幾何表達(dá)。該方法基于兩個(gè) key insights(圖 3.b、3.c):
- 語(yǔ)義優(yōu)先的重要性: 外觀特征應(yīng)在早期占主導(dǎo)地位以保持語(yǔ)義的穩(wěn)定,而深度信號(hào)作為后期補(bǔ)充來(lái)優(yōu)化幾何結(jié)構(gòu)。
- 雙向交互的重要性: 兩分支相互反饋可避免單向?qū)R的失衡,實(shí)現(xiàn)更穩(wěn)定的隱空間表征對(duì)齊。
分階段訓(xùn)練策略
為實(shí)現(xiàn) RGB 與深度模態(tài)穩(wěn)健生成與有效協(xié)同的目標(biāo),DualCamCtrl 采用分階段訓(xùn)練策略(Two-stage training),為每個(gè)階段的學(xué)習(xí)設(shè)置不同側(cè)重點(diǎn):
- 解耦訓(xùn)練階段(Decoupled Stage): 核心目標(biāo)是使 RGB 與深度分支分別專(zhuān)注學(xué)習(xí)外觀與幾何表征。為此,模型使用共享預(yù)訓(xùn)練權(quán)重初始化,并利用 state-of-the-art (SOTA) 視頻深度估計(jì)模型 Video Depth Anything 生成的深度特征進(jìn)行監(jiān)督。此階段禁止模態(tài)間交互,確保表征演化的獨(dú)立性。
- 融合訓(xùn)練階段(Fusion Stage): 在兩個(gè)分支具備基礎(chǔ)能力后,核心目標(biāo)轉(zhuǎn)向?qū)崿F(xiàn)外觀與幾何信息的互補(bǔ)增強(qiáng)。為此,模型引入零初始化的融合模塊,逐步建立跨模態(tài)交互,并通過(guò)聯(lián)合優(yōu)化 RGB 與深度目標(biāo)函數(shù),實(shí)現(xiàn)多模態(tài)表征的對(duì)齊與協(xié)同。

圖2:兩階段訓(xùn)練的效果:?jiǎn)坞A段模型因無(wú)法充分收斂(上圖),導(dǎo)致其相機(jī)軌跡對(duì)齊效果欠佳(下圖)。這凸顯了先解耦學(xué)習(xí)外觀與幾何表征的兩階段策略的有效性。
實(shí)驗(yàn)結(jié)果
在定量和定性比較中,DualCamCtrl 在各項(xiàng)指標(biāo)上均顯著優(yōu)于當(dāng)前的 SOTA 方法。
定性分析:

在相同輸入條件下,DualCamCtrl 在相機(jī)運(yùn)動(dòng)的對(duì)齊效果和視頻生成的視覺(jué)效果上均顯著優(yōu)于現(xiàn)有先進(jìn)方法。圖中“+”標(biāo)記為視覺(jué)對(duì)比的定位參考點(diǎn)。
定量分析:

Image to Video 定量分析結(jié)果

Text to Video 定量分析結(jié)果
總結(jié)
DualCamCtrl 提出了一種集成深度信息的雙分支視頻擴(kuò)散模型,實(shí)現(xiàn)了更精準(zhǔn)的相機(jī)控制視頻生成。通過(guò)引入語(yǔ)義引導(dǎo)互對(duì)齊機(jī)制(SIGMA)與兩階段訓(xùn)練策略,該模型有效同步了 RGB 序列與深度序列的生成和融合,顯著增強(qiáng)了模型的幾何感知能力。實(shí)驗(yàn)表明,該方法在相機(jī)一致性誤差上比先前方法降低超過(guò) 40%,為相機(jī)控制視頻生成提供了新的技術(shù)思路,并有望推動(dòng)其他可控視頻生成任務(wù)的發(fā)展。
































