ICCV高分論文|可靈ReCamMaster在海外爆火,帶你從全新角度看好萊塢大片
作為視頻拍攝愛好者,你是否曾因?yàn)樵O(shè)備限制無(wú)法完成想要實(shí)現(xiàn)的運(yùn)鏡效果?例如想要將鏡頭上移拍攝風(fēng)景的全貌,但沒有入手拍攝無(wú)人機(jī);又或是對(duì)拍攝素材很滿意,但拍攝時(shí)手抖影響了成片質(zhì)量。作為 AI 視頻創(chuàng)作者,是否對(duì)于生成視頻的內(nèi)容很滿意,然而運(yùn)鏡卻不盡人意?
為了解決以上問(wèn)題,可靈研究團(tuán)隊(duì)提出了一種可將輸入視頻沿新相機(jī)軌跡重新運(yùn)鏡的視頻生成模型 ReCamMaster。用戶可以上傳任意視頻并指定新相機(jī)拍攝軌跡,實(shí)現(xiàn)已有視頻的重運(yùn)鏡。該工作還發(fā)布了一個(gè)高質(zhì)量多相機(jī)同步拍攝的視頻數(shù)據(jù)集 MultiCamVideo-Dataset,數(shù)據(jù)集和訓(xùn)練、測(cè)試代碼均已開源。

此外,ReCamMaster 在 4D 重建、視頻去抖動(dòng)、自動(dòng)駕駛、具身智能等領(lǐng)域有較強(qiáng)的應(yīng)用價(jià)值。

- 論文標(biāo)題:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
- 項(xiàng)目主頁(yè):https://jianhongbai.github.io/ReCamMaster
- 代碼:https://github.com/KwaiVGI/ReCamMaster
- 論文:https://arxiv.org/abs/2503.11647
1.ReCamMaster 能力展示
a) 視頻重運(yùn)鏡

b) 4D 場(chǎng)景重建

c) 視頻去抖動(dòng)

d) 在自動(dòng)駕駛、具身智能等場(chǎng)景作為數(shù)據(jù)生成器


可以觀察到,ReCamMaster 生成的視頻可以保持原視頻中的場(chǎng)景和動(dòng)態(tài),并在不同場(chǎng)景有較好的泛化性。更多示例請(qǐng)?jiān)L問(wèn)項(xiàng)目主頁(yè):https://jianhongbai.github.io/ReCamMaster/
2.ReCamMaster 創(chuàng)新點(diǎn)
研究者表示,ReCamMaster 的主要?jiǎng)?chuàng)新點(diǎn)為:
- 提出了一種新的簡(jiǎn)單且有效的 video conditioning 范式,性能較之前方法有大幅度提升。
- 發(fā)布了一個(gè)高質(zhì)量多相機(jī)同步拍攝的視頻數(shù)據(jù)集。該數(shù)據(jù)集在相機(jī)可控的視頻生成、4D 重建等領(lǐng)域有較高的實(shí)用價(jià)值。
- 首次將單視頻的重運(yùn)鏡效果做到準(zhǔn)產(chǎn)品級(jí)的性能,驗(yàn)證了視頻生成模型在此類任務(wù)上的巨大潛力。
3. ReCamMaster 算法解讀

如上圖所示,ReCamMaster 的核心創(chuàng)新點(diǎn)在于提出了一種新的 video conditioning 范式,即將 condition video 與 target video 在 patchify 之后沿時(shí)間維度拼接。所提出的 video conditioning 范式較之前工作所常用的通道維度拼接有顯著的性能提升。
4.MultiCamVideo 數(shù)據(jù)集
MultiCamVideo 數(shù)據(jù)集是使用 Unreal Engine 5 渲染的多攝像機(jī)同步視頻數(shù)據(jù)集。它包含 13,600 個(gè)不同的動(dòng)態(tài)場(chǎng)景,每個(gè)場(chǎng)景由 10 個(gè)攝像機(jī)沿不同的相機(jī)軌跡拍攝,總計(jì) 136,000 個(gè)視頻,112,000 個(gè)不同的相機(jī)軌跡。MultiCamVideo 以 66 個(gè)不同的人物為 “主要拍攝對(duì)象”,93 種不同的人物動(dòng)作,和 37 個(gè)高質(zhì)量 3D 環(huán)境作為背景。數(shù)據(jù)集示例如下:

5.ReCamMaster 實(shí)驗(yàn)結(jié)果
視頻中研究者將 ReCamMaster 與最先進(jìn)的方法進(jìn)行了比較,ReCamMaster 較 baseline 有較大幅度的性能提升。
6. 總結(jié)
在本文中,研究者提出了 ReCamMaster,一種可將輸入視頻沿新相機(jī)軌跡重新運(yùn)鏡的視頻生成模型。ReCamMaster 的核心創(chuàng)新點(diǎn)在于提出了一種簡(jiǎn)單且有效的 video conditioning 范式,其性能顯著優(yōu)于 baseline 方法。此外、研究者還發(fā)布了多相機(jī)同步視頻數(shù)據(jù)集 MultiCamVideo-Dataset 用于相機(jī)可控的視頻生成、4D 重建等領(lǐng)域的研究。
更多細(xì)節(jié)請(qǐng)參閱原論文。
































