挖掘注意力中的運(yùn)動線索:無需訓(xùn)練,解鎖4D場景重建能力
如何讓針對靜態(tài)場景訓(xùn)練的3D基礎(chǔ)模型(3D Foundation Models),在不增加訓(xùn)練成本的前提下,具備處理動態(tài)4D場景的能力?
來自香港科技大學(xué)(廣州)與地平線(Horizon Robotics)的研究團(tuán)隊(duì)提出了VGGT4D。該工作通過深入分析Visual Geometry Transformer(VGGT)的內(nèi)部機(jī)制,發(fā)現(xiàn)并利用了隱藏在注意力層中的運(yùn)動線索。

作為一種無需訓(xùn)練(Training-free)的框架,VGGT4D在動態(tài)物體分割、相機(jī)位姿估計(jì)及長序列4D重建等任務(wù)上均取得了優(yōu)異性能。
從3D邁向4D的挑戰(zhàn)
近年來,以VGGT、DUSt3R為代表的3D基礎(chǔ)模型在靜態(tài)場景重建中表現(xiàn)出色。然而,面對包含移動物體(如行人、車輛)的動態(tài)4D場景時(shí),這些模型的性能往往顯著下降。動態(tài)物體的運(yùn)動不僅干擾背景幾何建模,還會導(dǎo)致嚴(yán)重的相機(jī)位姿漂移。
現(xiàn)有的解決方案通常面臨兩類挑戰(zhàn):
- 計(jì)算或訓(xùn)練成本高:依賴繁重的測試時(shí)優(yōu)化(Test-time Optimization)或需要在大規(guī)模4D數(shù)據(jù)集上進(jìn)行微調(diào)。
- 依賴外部先驗(yàn):通常需要引入光流、深度估計(jì)或語義分割等額外模塊,增加了系統(tǒng)的復(fù)雜性。
VGGT4D的核心設(shè)想:能否在不進(jìn)行額外訓(xùn)練的前提下,直接從預(yù)訓(xùn)練的3D基礎(chǔ)模型中挖掘出4D感知能力?
VGGT內(nèi)部的潛在運(yùn)動線索
研究人員對VGGT的注意力機(jī)制進(jìn)行了可視化分析,觀察到一個關(guān)鍵現(xiàn)象:VGGT的不同網(wǎng)絡(luò)層對動態(tài)區(qū)域表現(xiàn)出截然不同的響應(yīng)模式。
- 淺層網(wǎng)絡(luò):傾向于捕捉語義上顯著的動態(tài)物體。
- 深層網(wǎng)絡(luò):則逐漸抑制幾何不一致的區(qū)域。

這一發(fā)現(xiàn)表明,VGGT雖然是基于靜態(tài)假設(shè)訓(xùn)練的,但其內(nèi)部實(shí)際上已經(jīng)隱式編碼了豐富的動態(tài)線索。
然而,直接利用標(biāo)準(zhǔn)的注意力圖(QKT)效果并不理想,因?yàn)樗旌狭思y理、語義和運(yùn)動信息,導(dǎo)致信噪比低,使得Easi3R等基于Epipolar假設(shè)的方法在VGGT架構(gòu)上失效。
如何從靜態(tài)模型中提取運(yùn)動線索?
VGGT4D提出了一套無需訓(xùn)練的注意力特征挖掘與掩膜精修機(jī)制。該方法深入特征流形內(nèi)部,利用Gram矩陣和梯度流實(shí)現(xiàn)了高精度的動靜分離。

跨越投影間隙:基于Gram相似度的特征挖掘
研究團(tuán)隊(duì)首先分析了標(biāo)準(zhǔn)注意力圖AQK=QKT/√C的局限性。由于Q(Query)和K(Key)向量來自異構(gòu)的投影頭,其特征分布存在天然的分布間隙(Distributional Gap),導(dǎo)致Cross-Attention主要響應(yīng)語義對齊,而運(yùn)動引起的微小特征擾動容易被掩蓋。
為解決此問題,VGGT4D引入了自相似性Gram矩陣來替代。通過在同構(gòu)潛在分布內(nèi)計(jì)算相似度,運(yùn)動引起的方差成為了主導(dǎo)信號。模型通過在時(shí)間窗口W(t)內(nèi)聚合不同層級的統(tǒng)計(jì)矩(均值S與方差V),構(gòu)建了動態(tài)顯著性場:

基于投影雅可比矩陣的梯度流精修
為了解決Attention Map分辨率不足導(dǎo)致的邊界模糊問題,VGGT4D引入了投影梯度感知精修(Projection Gradient-aware Refinement)。
定義3D點(diǎn)在視點(diǎn)i下的幾何投影殘差rd,i,該殘差關(guān)于3D坐標(biāo)的梯度?rd,i包含了極強(qiáng)的邊界信息。由于該梯度依賴于投影雅可比矩陣(Projection Jacobians)和深度圖的空間梯度,在動態(tài)物體邊緣處會呈現(xiàn)顯著的高頻響應(yīng)。聚合后的梯度能量函數(shù)如下所示,結(jié)合光度殘差項(xiàng),實(shí)現(xiàn)了對動態(tài)掩膜的亞像素級銳化:

分布內(nèi)早期掩膜策略(In-Distribution Early-Stage Masking)
在推理階段,直接的全層掩膜(Full Masking)會將模型推向分布外(OOD)狀態(tài),導(dǎo)致性能下降。
VGGT4D提出了一種早期階段干預(yù)策略:僅在淺層抑制動態(tài)Token的Key向量。這種設(shè)計(jì)既在早期切斷了動態(tài)信息對深層幾何推理的影響,又保證了深層Transformer Block依然在其預(yù)訓(xùn)練的特征流形上運(yùn)行,從而保證了位姿估計(jì)的魯棒性。
表現(xiàn)如何?
研究團(tuán)隊(duì)針對動態(tài)物體分割、相機(jī)位姿估計(jì)和4D點(diǎn)云重建三大核心任務(wù),在六個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了詳盡的定量和定性評估:
核心組件評估:動態(tài)物體分割性能
實(shí)驗(yàn)首先評估了該方法的核心組件:動態(tài)物體分割。
定量分析:VGGT4D顯著優(yōu)于其他所有變體,在DAVIS-2016和DAVIS-2017數(shù)據(jù)集上均達(dá)到了最優(yōu)性能。值得強(qiáng)調(diào)的是,即使沒有經(jīng)過任何4D特定的訓(xùn)練,該方法僅基于預(yù)訓(xùn)練的VGGT模型即可取得優(yōu)異結(jié)果。雖然Easi3Rmonst3r在DAVIS-all數(shù)據(jù)集上表現(xiàn)出具有競爭力的召回率,但這主要得益于MonST3R在光流上的后訓(xùn)練,而VGGT4D無需訓(xùn)練。

定性分析:定性結(jié)果清晰地展示了基線方法的不足:Easi3R的掩碼較為粗糙且遺漏細(xì)節(jié);DAS3R傾向于過度分割并滲入靜態(tài)背景;MonST3R則常常分割不足。相比之下,VGGT4D生成的掩碼更加準(zhǔn)確,且邊界更加清晰。這些結(jié)果有力地驗(yàn)證了研究團(tuán)隊(duì)的假設(shè):VGGT的Gram相似度統(tǒng)計(jì)信息中嵌入了豐富的、可提取的運(yùn)動線索。

魯棒性驗(yàn)證:相機(jī)位姿估計(jì)
強(qiáng)大的基線與持續(xù)改進(jìn):數(shù)據(jù)表明,原始VGGT已經(jīng)是一個非常強(qiáng)大的基線,其自身就優(yōu)于MonST3R、DAS3R等許多專門的4D重建方法。這表明VGGT的預(yù)訓(xùn)練隱式地使其對動態(tài)物體具有一定的魯棒性。然而,這種魯棒性并不完美。VGGT4D在所有數(shù)據(jù)集上均持續(xù)改進(jìn)了這一強(qiáng)大的VGGT基線。例如在VKITTI數(shù)據(jù)集上,VGGT4D的ATE僅為0.164,而MonST3R高達(dá)2.272。

長序列魯棒性突破:在極具挑戰(zhàn)性的長序列Point Odyssey基準(zhǔn)測試中,VGGT4D在所有指標(biāo)上均取得了最佳結(jié)果,同時(shí)保持了高度效率。許多其他4D方法由于內(nèi)存不足(OOM)錯誤甚至無法在該500幀序列上運(yùn)行。這表明VGGT4D提出的顯式、無需訓(xùn)練的動態(tài)-靜態(tài)分離方法成功地識別并消除了由運(yùn)動引起的殘余位姿不一致性,從而實(shí)現(xiàn)了更穩(wěn)定、更準(zhǔn)確的相機(jī)軌跡,尤其是在長且復(fù)雜的序列上。

最終目標(biāo):4D點(diǎn)云重建質(zhì)量實(shí)驗(yàn)
在DyCheck數(shù)據(jù)集上的評估顯示,VGGT4D在所有重建指標(biāo)(準(zhǔn)確度、完整度和距離)上均取得了最佳性能。與VGGT基線相比,中位準(zhǔn)確度誤差從0.009降低到0.004,平均距離從0.150降低到0.123。這證明了該方法不僅實(shí)現(xiàn)了精準(zhǔn)的動靜分離,更能實(shí)質(zhì)性提升幾何重建質(zhì)量。


低成本解決大問題
VGGT4D提出了一種無需訓(xùn)練的新范式,成功將3D基礎(chǔ)模型的能力擴(kuò)展至4D動態(tài)場景。該工作證明了通過合理挖掘模型內(nèi)部的Gram相似度統(tǒng)計(jì)特性,可以有效解耦動態(tài)與靜態(tài)信息。這不僅為低成本的4D重建提供了新思路,也展示了基礎(chǔ)模型在零樣本遷移任務(wù)中的潛力。
項(xiàng)目主頁:https://3dagentworld.github.io/vggt4d/
代碼鏈接:https://github.com/3DAgentWorld/VGGT4D
論文標(biāo)題:VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction


































