港中文聯手美團開源“視覺推理通才”!圖像視頻10類任務一網打盡
橫掃31個主流基準、拿捏10類核心任務,視覺模型界的“通才”來了!
香港中文大學MMLab與美團研究團隊開源提出OneThinker——一個基于RL的統一多模態視覺推理通才模型,覆蓋圖像與視頻兩種模態下的十類核心視覺任務。

在31項主流視覺任務測試中,OneThinker均表現亮眼。它不僅能在多任務訓練中實現相互促進,還能在從未見過的任務上做出合理推理,初步展現了通才模型的泛化能力。

雖然以Vision-R1、Video-R1、VLM-R1等為代表的工作,已經在圖像問答、視頻理解、目標檢測等任務上取得顯著效果。
但這類RL模型大部分存在一個限制:只能處理單一模態或單一任務。模態、任務之間缺乏關聯,推理能力被割裂,難以泛化應用。
來看看OneThinker是如何做的。
從“專才模型”到“通才系統”
現實世界中的視覺數據復雜多樣,往往同時包含靜態圖像與動態視頻信息。同時,視覺任務類型也高度多樣化,例如問答、定位、分割、追蹤等。
在這種背景下,傳統的“單任務、單模態”RL思考模型架構存在以下兩個根本性問題:
- 無法統一建模現實復雜場景真實應用中往往需要同時理解圖像與視頻內容,并完成多類任務協同,專才模型難以滿足。
- 知識隔離,遷移受限模型之間彼此獨立,缺乏知識共享機制,限制了推理能力在任務之間的泛化與遷移。
為了解決這一問題,研究團隊提出了一個“通才思考模型”OneThinker,具備統一理解和推理不同模態、任務的能力。

為了讓OneThinker真正具備統一推理不同模態和任務的能力,研究團隊從兩方面入手:一是構建統一的數據體系,二是優化多任務的訓練方法。
多模態統一任務數據構建

構建具備通用視覺推理能力的模型,首先需要解決數據覆蓋不足、任務割裂的問題。
為此,研究團隊精心搭建了一套數據集,分別用于模型的SFT冷啟動與強化學習訓練:
- OneThinker-600k覆蓋圖像與視頻兩種模態,涵蓋圖像問答、視頻問答、時空定位、分割、跟蹤等十類核心視覺任務,用于強化學習階段的主力訓練數據。
- OneThinker-SFT-340k基于Seed1.5-VL對OneThinker-600k生成高質量的思維鏈樣本并過濾,用于SFT階段冷啟動
通過圖像與視頻任務的聯合訓練,OneThinker能夠在空間與時間維度上建立統一的推理能力,從而實現跨模態、多任務的通用理解。
EMA-GRPO:提升多任務RL訓練穩定性

傳統強化學習方法在多任務、多模態場景中存在顯著訓練不平衡問題。
不同任務之間的獎勵結構差異較大(如檢測任務的獎勵稠密,而問答類任務往往稀疏),容易導致樣本間或任務間訓練不平衡的問題。
為此,OneThinker引入了全新的EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization) 強化訓練算法,通過對各任務獎勵標準差進行滑動平均歸一,解決了兩個層面的不平衡問題:
- 任務內樣本權重不均:緩解模型對低方差樣本的過度依賴;
- 任務間梯度貢獻失衡:防止稀疏任務在反向傳播中占據主導,抑制其他任務學習。
實驗結果表明,EMA-GRPO能顯著提升強化學習階段的訓練穩定性與收斂速度,為大規模統一推理模型的多任務訓練提供了有效支撐。
實驗結果
為了全面評估OneThinker的能力,研究團隊在圖像與視頻兩個模態下不同任務的31個主流 benchmark上進行了系統測試,覆蓋圖像問答、視頻理解、空間定位、時間定位、目標分割、目標追蹤等10類核心視覺任務。

OneThinker在圖像問答任務中表現出色,MMMU達到70.6%,MathVerse達到64.3%,在視頻理解上,VideoMMM取得了66.2%的表現。

對于時間定位和空間定位任務中,模型在RefCOCO testA的空間定位任務中也取得了93.7%的高分,Charades和ActivityNet的R@0.5分別達到68.3和43.6。

同時,OneThinker在追蹤任務GOT-10k上AO達到73.0, 在視頻分割任務ReasonVOS上J&F得分為54.9,體現了其在感知類任務中的穩健表現,更多的任務表現請參考原文。

研究團隊還發現,在某些任務和模態之間,OneThinker能實現有效的知識遷移與共享,不同任務之間相互促進。

同時,OneThinker在未見任務上展現出零樣本能力,能直接適應如點追蹤、圖像質量評估、GUI理解和旋轉目標檢測等任務,體現出強大的任務泛化能力。
可以說,OneThinker的推出,不僅展示了強化學習在統一多模態、多任務視覺推理上的潛力,也為構建真正的視覺通才模型提供了清晰的路徑。
在大模型不斷走向多模態、強推理、通才化的趨勢下,OneThinker的工作或許只是一個起點,但它所驗證的方向,正在成為通往通用視覺智能(AGI)的關鍵一環。
更多細節,請參考原文。
論文地址:https://arxiv.org/pdf/2512.03043
代碼地址:https://github.com/tulerfeng/OneThinker



























