復雜空間指令也能秒懂?RoboRefer 讓機器人理解推理空間,開放世界也能精準行動!
本文的主要作者來自北京航空航天大學、北京大學和北京智源人工智能研究院。本文的第一作者為北京航空航天大學碩士生周恩申,主要研究方向為具身智能和多模態大模型。本文的共一作者兼項目負責人為北京智源研究院研究員遲程。本文的通訊作者為北京航空航天大學副教授盛律和北京大學計算機學院研究員、助理教授仉尚航。
機器人走出實驗室、進入真實世界真正可用,遠比想象中更復雜。現實環境常常雜亂無序、物體種類繁多、靈活多變,遠不像實驗室那樣干凈、單一、可控。
想象一下,你正在餐廳吃飯,身邊有個服務機器人。你對它說:「把第二列最遠的黃色壽司盤,放到離我最近的壽司和醬油碟之間的空位上。」(左圖)又或者,你希望它「拿起最左邊、飲料 logo 正對的蘋果,放到最近的桌子上,并與之前的蘋果排成一排、間距一致。」(右圖)

這些聽起來是我們日常再熟悉不過的指令,其實是一個典型空間指代(Spatial Referring)任務。簡單來說,就是讓機器人通過「最遠」「第二列」「等間距」「正對著」這類空間關系,搞清楚要抓哪個對象、放在哪里、或者走向哪個位置。
聽著簡單,做起來卻不容易。哪怕是目前最強大、最先進的多模態大模型,也依然難以準確理解復雜的三維場景,并根據指令動態推理出正確的交互位置。這是因為空間指代任務,背后其實包含了兩個維度的挑戰:
- 單步空間理解:機器人得先看懂世界。這要求模型能夠準確識別物體的空間屬性(比如位置、朝向)以及它們之間的空間關系(比如遠近、方向)。這是空間指代任務的基礎,大部分研究目前還停留在這一層。
- 多步空間推理:真正的挑戰來了:面對一連串復雜的空間關系約束,機器人不僅要理解,還要逐步推理、動態判斷,靈活應對各種開放世界中各種各樣的空間關系組合。這種能力對于實現真正的空間指代至關重要,但目前仍然是一個被嚴重低估和不足探索的方向。
為了破解空間指代的難題,北京航空航天大學、北京大學與北京智源人工智能研究院聯合提出了一個具備三維空間理解推理能力的多模態大模型 —— RoboRefer。這個模型不僅通過全參數微調(SFT),實現了對空間信息的精準理解,還通過強化學習微調(RFT),大幅提升了推理與泛化能力,最終實現開放世界的空間指代。

- 論文鏈接:https://arxiv.org/pdf/2506.04308
- 論文標題:RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
- 項目主頁:https://zhoues.github.io/RoboRefer
- 代碼倉庫:https://github.com/Zhoues/RoboRefer
- 數據鏈接:https://huggingface.co/datasets/JingkunAn/RefSpatial
- 評測鏈接:https://huggingface.co/datasets/BAAI/RefSpatial-Bench
SFT 訓練下的 RoboRefer 在空間理解任務中達到了 89.6% 的平均成功率,刷新了當前最先進水平。而在研究者提出的高難度空間指代任務評測基準 RefSpatial-Bench 上,RFT 訓練后的 RoboRefer 更是領先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均準確率,優勢顯著。
更重要的是,RoboRefer 并非「紙上談兵」。它可以靈活集成到不同類型的機器人上,比如 UR5 機械臂、G1 仿人機器人等,實現對現實世界中復雜、動態、多步驟任務的精準執行,真正讓機器人「聽得懂、看得清、動得準」。
RoboRefer 是什么

RoboRefer 是一個具備三維空間理解與推理能力的多模態大模型,擁有獨立的圖像編碼器和深度圖編碼器,其不僅能回答各種空間感知類問答,無論是「這個物體離我有多遠?」這樣的定量問題,還是「哪個物體在左邊?」這樣的定性問題;更厲害的是,它還能基于多種空間關系(比如物體的位置和朝向),進行復雜的組合式推理,最終準確定位需要交互的位置。
比如,面對一個指令:「把這個物體放在筆筒和鍵盤的中間,水瓶的 logo 要正對著你。」RoboRefer 不僅能理解這句自然語言的空間邏輯,還能在真實三維場景中,找到唯一正確的位置來完成任務。
RoboRefer 的核心是什么
為什么相較于以往的方法,RoboRefer 不僅可以精確的感知空間,而且又可以根據多個空間關系組合泛化推理出交互的位置呢?其關鍵因素在于以下幾點:
SFT 增強空間感知能力,RFT 搭配過程獎勵提升泛化推理能力
當前多模態大模型在 2D 預訓練階段缺乏對空間關系的深入理解,為了提升模型的單步空間理解能力,研究人員引入了一個獨立的深度編碼器,使模型能夠更有效地感知和利用三維信息,并通過全參數微調(SFT)進行訓練。
盡管 SFT 使用了各種空間感知和推理數據,但模型更傾向于記憶答案,而不是泛化到新的空間約束條件。為了解決這一問題,研究者進一步引入了基于 GRPO 的強化學習微調。
值得一提的是,團隊不僅關注結果導向的獎勵(outcome-based reward),還創新性地設計了基于過程的獎勵函數(process reward functions),這些函數能夠感知中間推理過程的質量,從而提升模型多步空間指代任務中的推理精度。最終,模型增強了顯式多步推理能力,實現了開放世界的空間指代任務。
提出 RefSpatial 數據集,教一個多模態大模型從 0 到 1 學會空間指代

為了支持前述的 SFT 和 RFT 訓練,研究團隊構建了一個大規模、高質量的數據集 ——RefSpatial,具有以下幾個核心特點:
- 精細標注:每個物體都配有層級式描述,從「杯子」這類種類類別,到像「左數第三個杯子」「最靠近攝像頭的杯子」這樣的精確空間指代,確保在復雜場景中也能清晰用文字表述。
- 多維推理:數據集不僅標注了目標,還附帶詳細的多步推理過程(最高有 5 步),為復雜空間指代提供支持。
- 高質量篩選:數據經過嚴格篩選,確保標注準確、語義清晰。
- 規模龐大:共包含 250 萬個樣本、2000 萬個問答對,數據量是同類數據集的兩倍。
- 場景豐富:覆蓋室內外環境,涵蓋多種日常交互情境,并整合了 31 種空間關系(對比以往最多 15 種)。
- 易于擴展:支持從多種來源生成空間指代數據,包括 2D 圖像、3D 視頻(含邊界框)和模擬資產,具備高度擴展性。
RoboRefer 到底有多厲害
單步空間理解評測
SFT 訓練后的 RoboRefer 在各種空間理解任務中達到了 89.6% 的平均成功率,取得了當前最先進水平。

多步空間指代評測
RFT 訓練后的 RoboRefer 在已有的機器人指代榜單上依舊超越現有方法,在研究者們提出的高難度空間指代任務評測基準 RefSpatial-Bench 上,其更是領先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均準確率。

下面展示一些 RoboRefer 與其它模型輸出結果的可視化樣例:

仿真與真機實驗
在空間操控的機械臂仿真評測中,RoboRefer 的表現遠超現有的視覺 - 語言 - 動作(VLA)系統。不僅在模擬環境中成功率遙遙領先,面對開放世界中的多步推理與復雜指代任務,唯有 RoboRefer 能夠完成!


更多的實驗結果,可視化展示(包括更多的雜亂場景下的真機 Demo 視頻的空間指代結果)詳見論文和主頁!





























