挖掘注意力中的運(yùn)動線索：無需訓(xùn)練，解鎖4D場景重建能力

2025-12-18 08:58:39

來自香港科技大學(xué)（廣州）與地平線（Horizon Robotics）的研究團(tuán)隊(duì)提出了VGGT4D。

如何讓針對靜態(tài)場景訓(xùn)練的3D基礎(chǔ)模型（3D Foundation Models），在不增加訓(xùn)練成本的前提下，具備處理動態(tài)4D場景的能力？

來自香港科技大學(xué)（廣州）與地平線（Horizon Robotics）的研究團(tuán)隊(duì)提出了VGGT4D。該工作通過深入分析Visual Geometry Transformer（VGGT）的內(nèi)部機(jī)制，發(fā)現(xiàn)并利用了隱藏在注意力層中的運(yùn)動線索。

作為一種無需訓(xùn)練（Training-free）的框架，VGGT4D在動態(tài)物體分割、相機(jī)位姿估計(jì)及長序列4D重建等任務(wù)上均取得了優(yōu)異性能。

從3D邁向4D的挑戰(zhàn)

近年來，以VGGT、DUSt3R為代表的3D基礎(chǔ)模型在靜態(tài)場景重建中表現(xiàn)出色。然而，面對包含移動物體（如行人、車輛）的動態(tài)4D場景時(shí)，這些模型的性能往往顯著下降。動態(tài)物體的運(yùn)動不僅干擾背景幾何建模，還會導(dǎo)致嚴(yán)重的相機(jī)位姿漂移。

現(xiàn)有的解決方案通常面臨兩類挑戰(zhàn)：

計(jì)算或訓(xùn)練成本高：依賴繁重的測試時(shí)優(yōu)化（Test-time Optimization）或需要在大規(guī)模4D數(shù)據(jù)集上進(jìn)行微調(diào)。
依賴外部先驗(yàn)：通常需要引入光流、深度估計(jì)或語義分割等額外模塊，增加了系統(tǒng)的復(fù)雜性。

VGGT4D的核心設(shè)想：能否在不進(jìn)行額外訓(xùn)練的前提下，直接從預(yù)訓(xùn)練的3D基礎(chǔ)模型中挖掘出4D感知能力？

VGGT內(nèi)部的潛在運(yùn)動線索

研究人員對VGGT的注意力機(jī)制進(jìn)行了可視化分析，觀察到一個關(guān)鍵現(xiàn)象：VGGT的不同網(wǎng)絡(luò)層對動態(tài)區(qū)域表現(xiàn)出截然不同的響應(yīng)模式。

淺層網(wǎng)絡(luò)：傾向于捕捉語義上顯著的動態(tài)物體。
深層網(wǎng)絡(luò)：則逐漸抑制幾何不一致的區(qū)域。

這一發(fā)現(xiàn)表明，VGGT雖然是基于靜態(tài)假設(shè)訓(xùn)練的，但其內(nèi)部實(shí)際上已經(jīng)隱式編碼了豐富的動態(tài)線索。

然而，直接利用標(biāo)準(zhǔn)的注意力圖(QK^T)效果并不理想，因?yàn)樗旌狭思y理、語義和運(yùn)動信息，導(dǎo)致信噪比低，使得Easi3R等基于Epipolar假設(shè)的方法在VGGT架構(gòu)上失效。

如何從靜態(tài)模型中提取運(yùn)動線索？

VGGT4D提出了一套無需訓(xùn)練的注意力特征挖掘與掩膜精修機(jī)制。該方法深入特征流形內(nèi)部，利用Gram矩陣和梯度流實(shí)現(xiàn)了高精度的動靜分離。

跨越投影間隙：基于Gram相似度的特征挖掘

研究團(tuán)隊(duì)首先分析了標(biāo)準(zhǔn)注意力圖A^QK=QK^T/√C的局限性。由于Q（Query）和K（Key）向量來自異構(gòu)的投影頭，其特征分布存在天然的分布間隙（Distributional Gap），導(dǎo)致Cross-Attention主要響應(yīng)語義對齊，而運(yùn)動引起的微小特征擾動容易被掩蓋。

為解決此問題，VGGT4D引入了自相似性Gram矩陣來替代。通過在同構(gòu)潛在分布內(nèi)計(jì)算相似度，運(yùn)動引起的方差成為了主導(dǎo)信號。模型通過在時(shí)間窗口W(t)內(nèi)聚合不同層級的統(tǒng)計(jì)矩（均值S與方差V），構(gòu)建了動態(tài)顯著性場：

基于投影雅可比矩陣的梯度流精修

為了解決Attention Map分辨率不足導(dǎo)致的邊界模糊問題，VGGT4D引入了投影梯度感知精修（Projection Gradient-aware Refinement）。

定義3D點(diǎn)在視點(diǎn)i下的幾何投影殘差r_d,i，該殘差關(guān)于3D坐標(biāo)的梯度?r_d,i包含了極強(qiáng)的邊界信息。由于該梯度依賴于投影雅可比矩陣（Projection Jacobians）和深度圖的空間梯度，在動態(tài)物體邊緣處會呈現(xiàn)顯著的高頻響應(yīng)。聚合后的梯度能量函數(shù)如下所示，結(jié)合光度殘差項(xiàng)，實(shí)現(xiàn)了對動態(tài)掩膜的亞像素級銳化：

分布內(nèi)早期掩膜策略（In-Distribution Early-Stage Masking）

在推理階段，直接的全層掩膜（Full Masking）會將模型推向分布外（OOD）狀態(tài)，導(dǎo)致性能下降。

VGGT4D提出了一種早期階段干預(yù)策略：僅在淺層抑制動態(tài)Token的Key向量。這種設(shè)計(jì)既在早期切斷了動態(tài)信息對深層幾何推理的影響，又保證了深層Transformer Block依然在其預(yù)訓(xùn)練的特征流形上運(yùn)行，從而保證了位姿估計(jì)的魯棒性。

表現(xiàn)如何？

研究團(tuán)隊(duì)針對動態(tài)物體分割、相機(jī)位姿估計(jì)和4D點(diǎn)云重建三大核心任務(wù)，在六個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了詳盡的定量和定性評估：

核心組件評估：動態(tài)物體分割性能

實(shí)驗(yàn)首先評估了該方法的核心組件：動態(tài)物體分割。

定量分析：VGGT4D顯著優(yōu)于其他所有變體，在DAVIS-2016和DAVIS-2017數(shù)據(jù)集上均達(dá)到了最優(yōu)性能。值得強(qiáng)調(diào)的是，即使沒有經(jīng)過任何4D特定的訓(xùn)練，該方法僅基于預(yù)訓(xùn)練的VGGT模型即可取得優(yōu)異結(jié)果。雖然Easi3R^monst3r在DAVIS-all數(shù)據(jù)集上表現(xiàn)出具有競爭力的召回率，但這主要得益于MonST3R在光流上的后訓(xùn)練，而VGGT4D無需訓(xùn)練。

定性分析：定性結(jié)果清晰地展示了基線方法的不足：Easi3R的掩碼較為粗糙且遺漏細(xì)節(jié)；DAS3R傾向于過度分割并滲入靜態(tài)背景；MonST3R則常常分割不足。相比之下，VGGT4D生成的掩碼更加準(zhǔn)確，且邊界更加清晰。這些結(jié)果有力地驗(yàn)證了研究團(tuán)隊(duì)的假設(shè)：VGGT的Gram相似度統(tǒng)計(jì)信息中嵌入了豐富的、可提取的運(yùn)動線索。

魯棒性驗(yàn)證：相機(jī)位姿估計(jì)

強(qiáng)大的基線與持續(xù)改進(jìn)：數(shù)據(jù)表明，原始VGGT已經(jīng)是一個非常強(qiáng)大的基線，其自身就優(yōu)于MonST3R、DAS3R等許多專門的4D重建方法。這表明VGGT的預(yù)訓(xùn)練隱式地使其對動態(tài)物體具有一定的魯棒性。然而，這種魯棒性并不完美。VGGT4D在所有數(shù)據(jù)集上均持續(xù)改進(jìn)了這一強(qiáng)大的VGGT基線。例如在VKITTI數(shù)據(jù)集上，VGGT4D的ATE僅為0.164，而MonST3R高達(dá)2.272。

長序列魯棒性突破：在極具挑戰(zhàn)性的長序列Point Odyssey基準(zhǔn)測試中，VGGT4D在所有指標(biāo)上均取得了最佳結(jié)果，同時(shí)保持了高度效率。許多其他4D方法由于內(nèi)存不足（OOM）錯誤甚至無法在該500幀序列上運(yùn)行。這表明VGGT4D提出的顯式、無需訓(xùn)練的動態(tài)-靜態(tài)分離方法成功地識別并消除了由運(yùn)動引起的殘余位姿不一致性，從而實(shí)現(xiàn)了更穩(wěn)定、更準(zhǔn)確的相機(jī)軌跡，尤其是在長且復(fù)雜的序列上。

最終目標(biāo)：4D點(diǎn)云重建質(zhì)量實(shí)驗(yàn)

在DyCheck數(shù)據(jù)集上的評估顯示，VGGT4D在所有重建指標(biāo)（準(zhǔn)確度、完整度和距離）上均取得了最佳性能。與VGGT基線相比，中位準(zhǔn)確度誤差從0.009降低到0.004，平均距離從0.150降低到0.123。這證明了該方法不僅實(shí)現(xiàn)了精準(zhǔn)的動靜分離，更能實(shí)質(zhì)性提升幾何重建質(zhì)量。

低成本解決大問題

VGGT4D提出了一種無需訓(xùn)練的新范式，成功將3D基礎(chǔ)模型的能力擴(kuò)展至4D動態(tài)場景。該工作證明了通過合理挖掘模型內(nèi)部的Gram相似度統(tǒng)計(jì)特性，可以有效解耦動態(tài)與靜態(tài)信息。這不僅為低成本的4D重建提供了新思路，也展示了基礎(chǔ)模型在零樣本遷移任務(wù)中的潛力。

項(xiàng)目主頁：https://3dagentworld.github.io/vggt4d/

代碼鏈接：https://github.com/3DAgentWorld/VGGT4D

論文標(biāo)題：VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction

責(zé)任編輯：張燕妮來源：量子位