港中文聯手美團開源“視覺推理通才”！圖像視頻10類任務一網打盡

2025-12-12 09:18:06

香港中文大學MMLab與美團研究團隊開源提出OneThinker——一個基于RL的統一多模態視覺推理通才模型，覆蓋圖像與視頻兩種模態下的十類核心視覺任務。

橫掃31個主流基準、拿捏10類核心任務，視覺模型界的“通才”來了！

香港中文大學MMLab與美團研究團隊開源提出OneThinker——一個基于RL的統一多模態視覺推理通才模型，覆蓋圖像與視頻兩種模態下的十類核心視覺任務。

在31項主流視覺任務測試中，OneThinker均表現亮眼。它不僅能在多任務訓練中實現相互促進，還能在從未見過的任務上做出合理推理，初步展現了通才模型的泛化能力。

雖然以Vision-R1、Video-R1、VLM-R1等為代表的工作，已經在圖像問答、視頻理解、目標檢測等任務上取得顯著效果。

但這類RL模型大部分存在一個限制：只能處理單一模態或單一任務。模態、任務之間缺乏關聯，推理能力被割裂，難以泛化應用。

來看看OneThinker是如何做的。

從“專才模型”到“通才系統”

現實世界中的視覺數據復雜多樣，往往同時包含靜態圖像與動態視頻信息。同時，視覺任務類型也高度多樣化，例如問答、定位、分割、追蹤等。

在這種背景下，傳統的“單任務、單模態”RL思考模型架構存在以下兩個根本性問題：

為了解決這一問題，研究團隊提出了一個“通才思考模型”OneThinker，具備統一理解和推理不同模態、任務的能力。

為了讓OneThinker真正具備統一推理不同模態和任務的能力，研究團隊從兩方面入手：一是構建統一的數據體系，二是優化多任務的訓練方法。

構建具備通用視覺推理能力的模型，首先需要解決數據覆蓋不足、任務割裂的問題。

為此，研究團隊精心搭建了一套數據集，分別用于模型的SFT冷啟動與強化學習訓練：

通過圖像與視頻任務的聯合訓練，OneThinker能夠在空間與時間維度上建立統一的推理能力，從而實現跨模態、多任務的通用理解。

傳統強化學習方法在多任務、多模態場景中存在顯著訓練不平衡問題。

不同任務之間的獎勵結構差異較大（如檢測任務的獎勵稠密，而問答類任務往往稀疏），容易導致樣本間或任務間訓練不平衡的問題。

為此，OneThinker引入了全新的EMA-GRPO（Exponential Moving Average Group Relative Policy Optimization）強化訓練算法，通過對各任務獎勵標準差進行滑動平均歸一，解決了兩個層面的不平衡問題：

實驗結果表明，EMA-GRPO能顯著提升強化學習階段的訓練穩定性與收斂速度，為大規模統一推理模型的多任務訓練提供了有效支撐。

為了全面評估OneThinker的能力，研究團隊在圖像與視頻兩個模態下不同任務的31個主流 benchmark上進行了系統測試，覆蓋圖像問答、視頻理解、空間定位、時間定位、目標分割、目標追蹤等10類核心視覺任務。

OneThinker在圖像問答任務中表現出色，MMMU達到70.6%，MathVerse達到64.3%，在視頻理解上，VideoMMM取得了66.2%的表現。

對于時間定位和空間定位任務中，模型在RefCOCO testA的空間定位任務中也取得了93.7%的高分，Charades和ActivityNet的R@0.5分別達到68.3和43.6。

同時，OneThinker在追蹤任務GOT-10k上AO達到73.0, 在視頻分割任務ReasonVOS上J&F得分為54.9，體現了其在感知類任務中的穩健表現，更多的任務表現請參考原文。

研究團隊還發現，在某些任務和模態之間，OneThinker能實現有效的知識遷移與共享，不同任務之間相互促進。

同時，OneThinker在未見任務上展現出零樣本能力，能直接適應如點追蹤、圖像質量評估、GUI理解和旋轉目標檢測等任務，體現出強大的任務泛化能力。

可以說，OneThinker的推出，不僅展示了強化學習在統一多模態、多任務視覺推理上的潛力，也為構建真正的視覺通才模型提供了清晰的路徑。

在大模型不斷走向多模態、強推理、通才化的趨勢下，OneThinker的工作或許只是一個起點，但它所驗證的方向，正在成為通往通用視覺智能（AGI）的關鍵一環。

更多細節，請參考原文。

論文地址：https://arxiv.org/pdf/2512.03043

代碼地址：https://github.com/tulerfeng/OneThinker

責任編輯：張燕妮來源：量子位