AAAI'26 | 刷榜自動駕駛語義場景補全!北大新作:高維度、高密度
視覺語義場景補全旨在從多視角圖像中重建完整的三維語義場景,即預測空間中每個體素的幾何占用狀態與語義類別,實現對復雜環境的精細感知與重建,在自動駕駛、機器人導航等場景中具有重要的研究和應用價值。
然而,現有視覺語義場景補全方法往往忽視了自動駕駛道路場景中2D輸入和3D輸出之間的維度差異,以及人工標注和真實場景之間的密度差異,難以準確預測立體視角下的密集場景補全結果。
針對這一問題,北京大學彭宇新教授團隊提出了「高維度-高密度」語義場景補全方法HD2-SSC,首先通過高維度語義解耦將平面圖像特征擴展為偽體素化特征與立體場景特征進行對齊;然后通過高密度占用優化增強三維場景的信息密度,補全和修正錯誤體素預測,實現準確的語義場景補全。

論文鏈接:https://arxiv.org/abs/2511.07925
代碼倉庫:https://github.com/PKU-ICST-MIPL/HD2-AAAI2026
實驗室網址:https://www.wict.pku.edu.cn/mipl
HD2-SSC在兩個常用自動駕駛數據集SemanticKITT和SSCBench-KITTI-360上均取得了當前最優的性能。
背景與動機
語義場景補全任務旨在從多視角圖像或稀疏點云中重建完整的三維語義場景,為下游任務提供體素級別的場景理解。
近年來,視覺語義場景補全方法由于圖像傳感器在實際應用場景中部署的低成本和靈活性,逐漸成為研究熱點。

視覺語義場景補全任務中的維度差異和密度差異
研究人員分析了現有視覺語義場景補全方法所面臨的挑戰,如圖1所示:
1. 維度差異:輸入的圖像數據從二維平面視角捕獲,導致被物體遮擋所混淆的粗糙像素語義;然而,語義場景補全任務要求輸出三維立體視角下的細粒度體素語義,準確分離輸入圖像中的遮擋物體。
2. 密度差異:基于激光雷達傳感器的人工標注因為點云的分辨率有限,導致具有間隙的稀疏標簽;然而,真實道路場景呈現密集且連貫的空間占用,具有遠高于人工標注的語義信息密度。
技術方案
為解決視覺語義場景補全中的維度差異和密度差異問題,研究人員提出了高維度-高密度語義場景補全方法HD2-SSC。
HD2-SSC主要包含兩個階段:
1. 首先針對維度差異難點,提出高維度語義解耦,利用偽體素化模塊將粗粒度像素語義擴展為細粒度體素化語義特征,并通過語義聚合模塊對全局細粒度語義進行聚類和整合,實現像素和體素語義的對齊;
2. 然后針對密度差異難點,提出高密度占用優化,采用“檢測-優化”架構,通過粗粒度預測提取密度分數,然后利用幾何密度優化模塊識別并對齊幾何和語義關鍵體素,確保上下文幾何與語義信息的一致性,增強局部辨識性信息密度,實現準確的語義場景補全。

高維度-高密度語義場景補全(HD2-SSC)框架圖
高維度語義解耦
首先,給定從圖像編碼器中提取的圖像特征,使用一個維度擴展層將其沿一個偽「語義維度」提升為偽體素化特征:

其中,表示用于進行圖像特征維度擴展的二維卷積網絡,表示擴展維度的通道數。同時,采用正交損失進一步促進偽體素化語義之間的差異性,提升其泛化到不同被遮擋物體的能力:

其中,表示維度擴展層的權重矩陣,表示單位矩陣,表示正則化參數。然后,引入像素查詢,通過交叉注意力機制從偽體素化特征中提取全局語義,并進行語義聚類:

其中,表示與擴展維度對應的個語義特征聚類,表示第個聚類的聚類中心。同時采用一個解耦損失來增強不同語義聚類簇之間的區分度:

最后,根據偽體素化特征與各語義聚類簇之間的相似度來定位其辨識性區域,實現對全局高維度細粒度語義特征的聚合:

其中,表示最終的聚合語義特征。
高密度占用優化
采用「檢測-優化」架構,在檢測階段,由像素查詢映射得到的體素查詢和通過視角轉換得到的體素特征被送入一個啟發式二元分類頭,檢測被占用的體素,同時對前景和背景體素進行區分:

然后,篩選具有最高分數的體素作為幾何關鍵體素:

其中,是所選關鍵體素的數量。在優化階段,首先使用體素查詢和體素特征進行逐類預測,生成初始的語義場景補全結果:

根據分類置信度篩選語義關鍵體素:

最后,對齊幾何和語義關鍵體素的整體分布,促進上下文語義和幾何信息的一致性,增強局部辨識性信息密度:

對齊后的幾何和語義關鍵體素提供了上下文的互補信息,用于優化初始的語義場景補全結果:

其中,表示優化得到的最終語義場景補全結果。
實驗結果
表1 高維度-高密度語義場景補全(HD2-SSC)實驗結果1(SemanticKITTI)

表2 高維度-高密度語義場景補全(HD2-SSC)實驗結果2(SSCBench-KITTI-360)
表1和表2的實驗結果表明,HD2-SSC在2個常用自動駕駛數據集SemanticKITTT和SSCBench-KITTI-360上均達到了當前最優的性能,相比浙江大學提出的SGN方法分別取得了1.38%IoU,2.12%mIoU和1.52%IoU,2.37%mIoU的性能提升。
可視化結果表明,相比于SOTA對比方法SGN,HD2-SSC方法能夠生成具有更準確語義信息和更真實幾何結構的三維占用預測結果。

高維度-高密度語義場景補全(HD2-SSC)可視化案例展示


















