全球首個人形機器人通用視覺感知系統,Humanoid Occupancy建立多模態環境理解新范式
第一作者崔巍,北京人形機器人創新中心感知算法負責人;共同一作王浩宇,極佳科技算法工程師,項目負責人;通訊作者張強,北京人形機器人創新中心學術委員會主任。
憑借類人化的結構設計與運動模式,人形機器人被公認為最具潛力融入人類環境的通用型機器人。其核心任務涵蓋操作 (manipulation)、移動 (locomotion) 與導航 (navigation) 三大領域,而這些任務的高效完成,均以機器人對自身所處環境的全面精準理解為前提。
然而,傳統感知系統存在明顯局限:有些僅能適配特定場景,難以應對復雜多變的真實環境;有些無法有效融合多種傳感器信息,導致數據利用率低下。這直接造成機器人在實際應用中頻繁出現感知失效問題,嚴重制約了任務執行效率。
為此,北京人形機器人創新中心推出 Humanoid Occupancy 感知系統,為破解這一行業難題提供了革命性方案。該系統通過創新性融合多模態傳感器信息,構建起基于語義占用 (occupancy) 表征的通用感知框架,能夠精準捕捉環境中的語義屬性與幾何特征,為機器人的任務規劃和導航決策奠定堅實基礎,也為人形機器人向實際場景大規模部署邁出了關鍵的一步。

- 論文標題:Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots
- 論文地址:
https://arxiv.org/abs/2507.20217 - 項目主頁:
https://humanoid-occupancy.github.io/ - 聯系郵箱:
jony.zhang@x-humanoid.com

突破傳統感知局限,占用表征具有核心優勢
人形機器人面臨三大核心任務:操作、移動和導航。操作需要豐富的紋理和幾何信息,移動依賴地形幾何感知,導航則要求全局環境語義和空間幾何理解。這些多樣化需求對感知系統設計提出了巨大挑戰,而傳統的感知表示方法往往只能反映部分信息,無法滿足復雜任務需求。
因此,Humanoid Occupancy 系統選擇語義占用表征作為人形機器人感知的核心范式,其具備兩大顯著優勢:
- 三維空間全面編碼:通過體素直接編碼環境中每個空間單元的占據狀態與語義類別,不僅能精準捕捉二維平面分布特征,更能完整呈現垂直維度的精細結構及語義屬性,其表征能力顯著優于傳統的 BEV (鳥瞰圖) 表征方式。
- 天然適配多模態融合:相較于點云、網格等其他三維表示方法,語義占用可將 RGB 圖像、深度信息、LiDAR 點云等多類傳感器數據方便地統一整合至空間體素中,使得該系統在數據結構規范性、語義標注便捷性及下游任務接口兼容性上更具通用性與可擴展性,能夠直接為路徑規劃、障礙規避及操作執行等任務提供支撐。
三大關鍵技術,構建完整感知體系
Humanoid Occupancy 系統構建了一套覆蓋硬件布局、數據集構建及多模態融合網絡設計的全鏈條解決方案,為人形機器人提供了通用化的感知技術路線。

- 優化傳感器布局,最大化感知能力:為兼顧操作、移動和導航任務的感知需求,系統采用了創新的傳感器布局策略:配備6個RGB相機和1個激光雷達,其中6個相機前后各1個、兩側各2個,激光雷達的水平視場角為360度。同時針對人形機器人的特性,設計了科學合理的安裝方案,有效避免了設備遮擋問題,保證了360度感知范圍,并確保兼容不同場景和未來迭代升級。

- 構建首個人形機器人全景占用感知數據集,助力社區研究:為解決人形機器人領域數據稀缺問題,團隊構建了首個針對人形機器人的占用感知數據集。數據集涵蓋家居、工業等多種場景,針對不同場景定義了差異化的語義標注類別(如家居場景包括行人、椅子、桌子等,工業場景包括傳送帶、靜態物體等)。標注采用了精心設計的動靜態解耦標注方法,分別針對動態目標(如行人)進行 bounding box 標注,靜態點云進行逐點語義標注,最終逐幀合并生成占用真值。
- 設計多模態融合感知網絡,實現精準環境感知:為了實現精確且高效的三維占用感知,我們設計了輕量化的多模態時序融合占用感知網絡。該網絡首先使用各模態專用的編碼器分別提取圖像和點云特征。然后通過Transformer 解碼器實現跨模態的可變形注意力融合。為了進一步提高感知性能,我們記錄歷史BEV特征,并將其對齊到當前時刻自車坐標系中,然后融合跨時序多尺度BEV特征。最終,我們將BEV特征拉升到三維空間預測最終結果。

實驗結果優異,實現性能和效率的平衡
基于采集的多樣化場景數據,團隊同步構建了數據集與 Benchmark。我們使用 mIoU 和 rayIoU 來衡量三維空間語義分割精度,同時統計模型參數量衡量模型規模。


- 對比試驗
我們在該數據集上,將我們的方法與具有代表性的 BEV 感知模型進行了訓練和測試。所有模型均采用相同的訓練配置,包括輸入圖像分辨率、骨干網絡結構、特征維度和訓練策略。結果顯示,我們的模型在取得更優指標的同時,還保持了輕量化架構,參數數量更少。
- 消融實驗
我們通過消融實驗驗證了每一個設計的有效性。具體來說,我們分析了相機畸變修正策略、時序信息聚合和輸入模態數據的影響。

a.相機畸變:我們針對輸入圖像和投影方法進行實驗,實驗結果表明,在輸入原始圖像,并使用考慮畸變的投影方法進行視角變換能夠實現最優的性能。

b.時序聚合:我們對所聚合的 BEV 特征數量進行實驗。實驗結果表明,我們提出的時序融合模塊能夠有效聚合歷史特征,相比單幀模型獲得顯著提升。

c.模態融合:多模態模型相比只有相機和只有激光雷達的模型具有顯著性能優勢。這印證了圖像和點云的互補特性——點云提供深度等幾何信息而圖像提供豐富的語義信息。
- 可視化結果
我們展示了典型感知結果,可以發現得益于圖像和點云的深度融合,該方法能夠實現精準的語義占用感知。



推動人形機器人邁向通用化感知時代
Humanoid Occupancy 系統的推出,不僅為人形機器人提供了強大的環境感知能力,更解決了傳感器布局、數據標注和多模態融合等關鍵挑戰,奠定了通用感知模塊標準化的技術基礎。此外,我們構建了首個人形機器人的全景占用感知數據集,并在天工機器人上驗證了該系統的有效性。
未來,團隊計劃進一步擴展數據集、優化時序融合策略,并探索在更多人形機器人平臺上的應用。隨著技術的不斷成熟,人形機器人有望在家庭服務、工業協作、戶外救援等多個領域發揮重要作用,為人類生活帶來更多便利。
想了解更多關于 Humanoid Occupancy 的詳細信息,可參考項目主頁以及技術報告。



























