人人都是導演:CineCtrl首個實現視頻生成中的相機運鏡與攝影效果統一控制
僅憑一段普通視頻,能否像專業導演一樣,在后期隨意改變相機軌跡,同時精細調整變焦、光圈散景、曝光度甚至圖像色溫?
現有視頻生成模型往往難以兼顧「運鏡」與「攝影美學」的精確控制。為此,華中科技大學、南洋理工大學、商湯科技和上海人工智能實驗室團隊推出了 CineCtrl。作為首個統一的視頻攝影控制 V2V 框架,CineCtrl 通過解耦交叉注意力機制,擺脫了多控制信號共同控制的效果耦合問題,實現了對視頻相機外參軌跡與攝影效果的獨立、精細、協調控制。

- 論文名稱:Generative Photographic Control for Scene-Consistent Video Cinematic Editing
- 論文鏈接:https://arxiv.org/abs/2511.12921
- 項目主頁:https://huiqiang-sun.github.io/cinectrl/
- 開源代碼:https://github.com/huiqiang-sun/CineCtrl

圖 1 CineCtrl 攝影效果與相機運動的精細控制
背景
在生成式 AI 爆發的今天,視頻生成模型雖然能生成驚艷的畫面,但難以做到精確控制相機的運動和畫面的攝影質感?,F有的編輯工具或是只能在某個單獨的攝影效果上處理單張圖像,或是只能控制相機軌跡,缺乏一個能將相機運鏡與攝影光學統一建模的系統。
如果能夠在視頻拍攝后做到不僅能夠調整鏡頭運動,還可以精確調整視頻的散景、曝光、色溫、焦距等攝影效果,那么就可以將一個普通視頻變得具有美學效果,達到類似電影級別的視頻。這種功能無論是在電影制作,還是 AR/VR 內容生成領域都具有很大的應用前景。
然而,對于專業攝影效果的精細控制在學術界尚未進行廣泛探索,同時對于輸入視頻實現相機軌跡與攝影效果的統一控制更是從未被解決的問題。
其核心的挑戰主要包括:
- 多參數統一控制:散景、焦距、曝光等攝影效果與相機軌跡變化同時進行控制容易產生不同維度的效果耦合,從而出現偽影。如何能夠將作用在輸入視頻的相機運鏡與攝影效果以滿足各自物理規律的方式有機統一起來成為難題。
- 缺乏相關數據:專業攝影效果與相機運動共同控制在學術界還未被廣泛探索,目前缺乏大規模的成對數據集,即能夠給出同一場景在不同相機軌跡以及不同精細化控制的攝影效果的視頻對,用于生成模型進行訓練。

CineCtrl 的提出填補了這一空白。它提出了首個專業攝影效果控制的 V2V 模型,使得用戶可以做到對輸入視頻編輯不同攝影效果以及相機運動,使得人人都可以成為「導演」,編輯拍攝的普通視頻從而具有美學價值。
方法架構
條件視頻擴散模型
CineCtrl 基于 Wan2.1 基模型并擴展到 V2V 框架,并加入了相機外參以及專業攝影效果的控制信號??刂菩盘柊刂粕⒕靶Ч墓馊Υ笮『途劢刮恢?;控制變焦效果的焦距;控制曝光效果的快門速度以及控制色彩效果的色溫。
為了便于用戶進行更加直觀的攝影效果控制,CineCtrl 將控制信號歸一化到用戶友好的 [0, 1] 或者 [-1, 1] 的取值范圍,用戶通過對于效果的直觀感受給出相對的效果變化。
控制信號的解耦控制
CineCtrl 通過兩個分支分別編碼相機外參以及攝影效果兩個控制信號,同時通過解耦交叉注意力機制引入兩組控制信號。通過專門設計的解耦交叉注意力模塊,確保模型在注意力計算的非線性階段能獨立響應不同的控制信號,防止不同維度的控制效果產生不理想的耦合現象。同時該模型設計可以將多維度的控制效果實現有機統一,使得在多參數控制時得到高質量且合理的視頻結果。

圖 2 CineCtrl 框架總覽
數據構建
攝影效果物理模擬器
為了得到具有精確攝影效果的視頻對,CineCtrl 根據不同攝影效果產生的物理機制提出了精細添加攝影效果的模擬方法。同時在設計物理模擬器時結合歸一化的參數取值范圍進行修正,保證數據空間與用戶編輯的參數空間進行對齊。
真實數據采集流程
為了增強模型對攝影效果響應的魯棒性,CineCtrl 從電影源等具有豐富相機變化的數據中采集視頻片段組成訓練數據集。整體流程從給定的長視頻開始,經過鏡頭檢測、視頻裁剪、質量篩選、相機參數預測以及文本 Caption 標注等流程,最終獲得高質量的視頻數據。

圖 3 CineCtrl 數據管線總覽
CineCtrl 從 MultiCamVideo-Dataset 收集合成數據集,從之前提到的真實數據采集流程獲得真實場景數據,并通過攝影效果物理模擬器進行攝影效果控制,從而搭建了用于模型訓練的大規模數據集。在散景效果的數據集構建時,對于散景效果為 0 的數據,其聚焦位置進行隨機賦值,從而增強模型對于散景效果的正常響應。數據集包括 200k 視頻片段,總計 288.4 小時,并帶有本文以及相機參數的標注。
實驗結果
對比實驗
CineCtrl 在攝影效果與相機軌跡控制效果上與其他方法進行對比。由于此前沒有類似的方法或模型完成攝影效果與相機運動的統一控制,論文構建多種 Baseline,例如基于 ReCamMaster 模型并使用文本進行攝影效果控制(微調/不微調);級聯拼接 ReCamMaster 以及不同攝影效果的物理模擬方法。
如表 1、表 2 與圖 4 所示,CineCtrl 在效果控制能力以及視頻質量達到了綜合最優,在攝影效果的控制上取得了顯著領先。

表 1 各方法在攝影效果控制準確性、視頻質量以及一致性維度的結果

表 2 各方法在 Vbench 指標上的結果

圖 4 各方法的可視化對比結果
消融實驗
消融實驗(表 3 與圖 5)從模型的解耦交叉注意力機制設計、真實數據集引入以及數據集構建三個方面進行分析。結果表明:解耦交叉注意力機制有效改善了多信號控制的耦合問題;真實數據集引入以及散景數據合成策略使得模型對于場景空間信息理解更加魯棒,從而增強了對于散景效果的聚焦位置的響應。

表 3 消融實驗定量結果

圖 5 消融實驗定性結果
攝影效果精細化控制
本文可以做到不同攝影效果的精細化控制,如圖 6 所示,用戶可以在給定范圍內進行精細化取值,從而得到所需要的攝影效果。

圖 6 精細化控制結果
結語
CineCtrl 提出首個用于精細控制專業攝影效果的生成式視頻電影編輯模型。通過相機解耦交叉注意力機制來注入控制信號,有效解決了相機軌跡和攝影參數之間的耦合問題。同時還開發了一種全面的訓練數據生成策略,將基于物理的仿真方法與新的真實世界數據集流水線相結合。
大量實驗驗證了 CineCtrl 能夠對所需的攝影效果進行精確有效的控制。展望未來,CineCtrl 提供的功能為更智能的電影制作系統開辟了新的可能性。未來研究的一個重要方向是在 CineCtrl 框架基礎上,融入高級美學知識,自動確定給定場景的最佳相機軌跡和攝影效果,從而為自動化、電影級視頻生成鋪平道路。




































