下一代目標檢測模型:3B參數MLLM Rex-Omni首度超越Grounding DINO,統一10+視覺任務
多模態大語言模型(MLLM)在目標定位精度上被長期詬病,難以匹敵傳統的基于坐標回歸的檢測器。近日,來自 IDEA 研究院的團隊通過僅有 3B 參數的通用視覺感知模型 Rex-Omni,打破了這一僵局。

該模型將所有視覺感知任務統一為「下一個點預測」,并結合高效的 4-Token 坐標編碼和兩階段 GRPO 強化學習后訓練。在 COCO、LVIS 等核心檢測基準的零樣本評估下,Rex-Omni 的性能超越了 Grounding DINO,DINO 等基于坐標回歸模型的。它系統解決了 MLLM 的定位和行為缺陷,在目標檢測、指代、點選、GUI 定位、OCR、版面分析等 10 多項任務上實現 SOTA 的性能,預示著下一代強語言理解的感知系統的到來。

- 主頁:https://rex-omni.github.io/
- 論文鏈接:https://arxiv.org/pdf/2510.12798
- 開源代碼:https://github.com/IDEA-Research/Rex-Omni
目標檢測的「金杯」與兩大模型范式核心困境

傳統模型與 MLLM 模型在目標檢測上各自的困境
目標檢測領域的一個長遠目標,就是構建一個能夠根據任意自然語言提示,檢測任意物體或概念,且無需任何微調的通用模型,這便是目標檢測的「金杯」。長期以來,目標檢測一直由基于回歸的模型主宰,例如 DETR 和 Grounding DINO 等。這類模型的優勢在于極高的定位精確度,但其本質受限于相對較淺的語言理解能力。例如,當用戶提示 Grounding DINO 檢測「紅蘋果」時,它仍然只能檢測出圖像中的所有蘋果。簡單地依賴這種基于類別級別的開放集檢測方法,無法滿足對復雜語義和精細描述的理解要求,難以實現真正的「金杯」。
另一方面,MLLM(如 Qwen2.5-VL, SEED1.5-VL) 因其底層的 LLM 具有強大的語言理解和推理能力,為實現這一目標帶來了希望。它們將坐標視為離散的 Token,用交叉熵進行分類預測。然而,這種概念上優雅的方法在實踐中面臨兩大根本挑戰,導致其定位能力遠未達到傳統回歸檢測器的水平,并容易出現低召回率、坐標偏移和重復預測等問題:
- 幾何離散化挑戰: MLLM 將連續的像素坐標視為離散分類任務,并依賴交叉熵損失。這與空間幾何的連續性本質不符。即使離散坐標預測中存在微小偏差,也可能導致巨大的交叉熵損失,極大地阻礙了精確定位。
- SFT 行為調控缺陷: MLLM 通常采用 Teacher-Forcing 的 SFT 訓練方式。這種范式導致模型在推理時,缺乏對自身輸出結構的有效調控,無法自主決定對象數量或避免冗余輸出,從而引發重復預測或漏檢等行為缺陷。
要推動 MLLM 成為下一代檢測模型,就必須系統性地克服這兩個相互交織的根本挑戰。
Rex-Omni 核心突破:三大設計重塑 MLLM 定位范式
Rex-Omni 的建立在三項相互支撐的設計之上,包括任務設計,數據設計,訓練 pipeline 設計,它們系統性地解決了 MLLM 的定位精度和行為缺陷,實現了「強大的語言理解」與「精確的幾何感知」的融合:
1. 輸出形式與任務設計: 量化坐標 + 特殊 Token 形式

Rex-Omni 采用了量化坐標 + 特殊 token 的坐標表征形式
首先,為了解決「幾何離散化挑戰」,Rex-Omni 提出了一個統一的「下一個點預測」框架,將所有視覺感知任務(包括檢測、點選、多邊形輸出)都轉化為坐標序列的生成。
- 統一的坐標序列: 通過預測一個或多個點,模型可以應對各種幾何輸出需求:
- 點選 (Point): 預測一個點

- 邊界框 (Box): 預測兩個點

- 多邊形 (Polygon) 和關鍵點 (Keypoint): 預測四個或更多的點序列,以表示輪廓或語義關鍵位置。
- 專有 Token + 量化相對坐標: Rex-Omni 采用量化相對坐標,將圖像坐標值(0 到 999)離散化,并為這 1000 個值在 LLM 詞匯表中分配了專用的特殊 Token(如 <0> 到 <999>)。
- 極致 Token 效率: 這種設計使得表示一個完整的邊界框
僅需 4 個特殊 Token。這極大地簡化了模型的學習難度,將坐標預測的「分類任務」限制在一個有界范圍(1000 類),同時,與需要 15 個甚至更多原子 Token 的方法相比,Token 效率提升了數倍,尤其在高密度的場景下,為快速推理打下了基礎。
在模型結構上,Rex-Omni 采用了標準的 Qwen2.5-VL-3B 的架構。唯一的改動是把 Qwen2.5-VL-3B 詞表中最后 1000 個不常用的 token 轉換為了代表坐標的特殊 token <0> 到 <999>。

Rex-Omni 模型結構示意圖
2. 多種數據引擎:Grounding,Referring,Pointing 等

接下來,為確保模型能夠將離散 Token 精確映射到連續像素,并具備魯棒的語言理解能力,團隊構建了多個定制化數據引擎(包括 Grounding、Referring、Pointing 和 OCR 數據引擎),以自動化方式生成了大規模、高質量的訓練監督信號。
- 豐富語義信息: 數據引擎不僅生成類別標簽,還提供語義豐富的指代表達式和點級監督,為模型提供了深層次、實例級別的語義富含的監督信號。
- 規模與質量: 通過整合公共數據集和定制引擎生成的數據,Rex-Omni 共在 2200 萬張高標注質量的圖像樣本上進行了訓練,為精細的空間推理能力奠定了數據基礎。
3. SFT + GRPO 兩階段訓練方法

這是 Rex-Omni 達成高精度定位和克服行為調控缺陷的關鍵。它采用了 SFT + GRPO 的兩階段訓練范式:
- SFT(第一階段): 在 2200 萬數據上進行基本的監督微調,賦予模型基礎的坐標預測技能。
- GRPO(第二階段): 在 66K 數據上采用基于 GRPO 的強化學習后訓練。
GRPO 通過引入幾何感知獎勵函數(如 IoU 獎勵、點在掩碼內獎勵等)和行為感知優化,直接在模型自主生成的序列上進行反饋學習,從而系統性地解決了 SFT 階段遺留的兩大挑戰:
- 行為缺陷的終結: GRPO 有力地抑制了 SFT 訓練帶來的重復預測、漏檢和大框預測等「壞習慣」,讓模型學會自主決定對象數量并生成連貫、高質量的輸出序列。
- 幾何精度的精煉: 強化學習獎勵直接與連續的幾何指標(如 IoU)掛鉤,彌合了離散 Token 預測與連續幾何精度之間的差距,實現了對 SFT 所獲定位能力的進一步提煉。
實驗結果表明,GRPO 并非簡單的額外訓練,而是解鎖了 SFT 模型中強大的潛在能力,僅用少量訓練步驟就帶來了性能的快速、大幅提升,成為 Rex-Omni 超越傳統檢測器的重要推手。
4. 實驗結果:零樣本檢測性能首度「超車」,全能感知力 SOTA
1)通用以及長尾目標檢測性能評估
在通用目標檢測 COCO 和 LVIS 等核心檢測基準的零樣本評估(不在評估 benchmark 的訓練集上進行訓練)設置下,Rex-Omni 的性能出色:Rex-Omni 的 F1-score(特別是 F1@IoU=0.5)首次展現出超越 Grounding DINO 等開放集專家模型的能力,并與 DINO 等傳統封閉集模型持平或更高。這有力證明了離散預測的 MLLM,在精確的定位能力上完全可以與回歸專家模型正面競爭。

COCO 評估結果

LVIS 評估結果

可視化結果可以看到,Rex-Omni 無論是定位框的精準度還是分類精準度都與傳統模型如 Grounding DINO 不相上下。
2)密集以及小物體檢測性能評估
密集場景是 MLLM 的傳統弱項,極度依賴于模型的精細坐標預測和輸出調控能力。在 VisDrone 和 Dense200 等極具挑戰的密集 / 微小目標檢測任務上,Rex-Omni 取得了 MLLM 中的最高性能: Rex-Omni 的 F1@mIoU 性能在 MLLM 中居于榜首。GRPO 強化學習后訓練為模型帶來了實質性的性能飛躍,解決了 SFT 階段容易產生的結構化重復預測等問題,使模型能夠精準識別和定位大量微小對象。如下圖所示,Rex-Omni 能夠準確地檢測出大量密集物體,且得益于其 4-Token 坐標編碼,相比于 SEED1.5-VL 等模型,Rex-Omni 在輸出相同數量目標時,耗費的 Token 數減少了 90% 以上,極大保障了在密集場景下的推理速度和效率。


3)全能制霸:統一框架下實現對多任務的通用處理
Rex-Omni 在一個統一的「下一個點預測」框架內,實現了對各種視覺感知任務的通用處理,并展現出強大的競爭力:
- 對象指代(Referring Object Detection): 在 RefCOCOg 和 HumanRef 等指代表達理解任務上,MLLM 普遍優于傳統開放集檢測器。Rex-Omni 取得了領先的高度競爭性性能,再次印證了 MLLM 在語義理解和視覺對齊上的天然優勢。


- 對象點選(Object Pointing): 該任務評估模型對精確點坐標的預測能力。Rex-Omni 在 COCO、LVIS、VisDrone 等所有測試數據集上均取得 F1-Score 領先成績(MLLM 中最高),充分展示了其強大的精細空間定位能力。

- 復雜空間指代(RefSpatial-Bench): 在要求模型進行推理來定位對象或自由空間(如「在桌上、鍵盤左側」)的任務中,Rex-Omni 在 MLLM 中表現突出,其泛化能力更勝一籌。
- GUI 與 OCR: 在 GUI 定位和布局分析任務中,Rex-Omni 表現出卓越的跨場景泛化能力。在 OCR 的 BBOX 輸出上,Rex-Omni 性能也與專用專家模型 PaddleOCRv5 具有高度競爭力。


深度分析:GRPO 如何「解鎖」MLLM 的定位潛能?
為什么僅用少量數據進行 GRPO 后訓練,就能帶來如此顯著的性能飛躍?論文通過深入分析揭示了其背后的機制:
1. 解鎖潛在能力,而非從零學習

在不同訓練階段的模型性能隨著訓練數據增加的變化
如上圖所示,SFT 階段模型的性能隨數據量增加而平穩上升并逐漸趨于平臺期。然而,GRPO 階段僅需極少的訓練步驟,就能使性能曲線出現陡峭的躍升。
這表明,SFT 模型實際上已經具備了強大的定位「潛能」,但受限于「教師強制」的訓練方式,這些潛能在自主推理時未能充分釋放。GRPO 就像一把鑰匙,通過獎勵反饋解鎖了這些潛在能力。
2. 核心貢獻:是「行為矯正」,而非單純的「像素微調」
深入分析發現,GRPO 對最終性能的貢獻,主要來自于對模型錯誤行為的系統性矯正,而非僅僅是讓坐標精度提高幾個像素:
- 消除重復預測: SFT 模型由于缺乏自主調節輸出的能力,極易產生大量重復框。實驗顯示,若手動刪除 SFT 輸出中的重復項,其性能會有顯著提升。而 GRPO 模型幾乎自動學會了避免這種重復,無需后處理。
- 糾正「大框」謬誤: 在密集場景下,SFT 模型傾向于「偷懶」,預測一個覆蓋全圖的大框(占比高達 20.5%)。GRPO 通過幾何獎勵強力抑制了這種行為(降至 3.5%),迫使模型去啃「硬骨頭」,精準定位每一個微小目標。

3. 提升高質量輸出的「采樣概率」
研究還發現,SFT 模型其實有能力生成非常精準的預測(在 Top-N 采樣中往往包含高質量答案),但在貪心解碼時卻往往選擇了次優解。GRPO 的作用在于顯著提升了模型采樣到那些高質量、正確答案的概率,使其在實際應用中更可靠。
總結
Rex-Omni 的工作為 MLLM 在視覺感知領域帶來了系統性的解決方案。它通過高效的坐標編碼和 SFT+GRPO 兩階段訓練范式,成功證明了 MLLM 能夠克服離散預測所帶來的幾何和行為局限性,實現了精確幾何感知與魯棒語言理解的有效融合。Rex-Omni 在零樣本目標檢測任務上,首次展現出超越傳統回歸專家模型的潛力,并在指代、點選、GUI 等多項任務中實現了強大的通用處理能力,這不僅為 MLLM 領域樹立了新的性能標桿,更重要的是,它提供了一套可行的、具有競爭力的范式,表明 MLLM 有望成為結合語義推理與精確定位能力的統一模型。Rex-Omni 為下一代目標檢測模型的構建,提供了一個有力的基線和發展方向。






















