突破全模態AI理解邊界:引入上下文強化學習,賦能全模態模型“意圖”推理新高度
在多模態大語言模型(MLLMs)應用日益多元化的今天,對模型深度理解和分析人類意圖的需求愈發迫切。盡管強化學習(RL)在增強大語言模型(LLMs)的推理能力方面已展現出巨大潛力,但將其有效應用于復雜的多模態數據和格式仍面臨諸多挑戰。
在深入研究現有技術后,發現在當前多模態推理模型中發現現有的推理路徑存在兩大核心問題:全局上下文理解不足和捷徑問題。

全局上下文理解不足: 當模型無法準確識別或錯誤解讀多模態證據和上下文信息時,便會出現此問題,導致給出不正確的答案。
捷徑問題: 指模型在處理多模態輸入時,忽視了關鍵線索,未充分考量多模態信息就直接給出答案,從而導致次優或片面的結果
為徹底解決這些痛點,阿里巴巴通義實驗室團隊推出HumanOmniV2,強調模型必須在對多模態輸入全局上下文有清晰理解的基礎上進行推理。這種全局性理解能夠有效避免模型遺漏關鍵多模態線索,確保推理過程的全面性和深入性。
相關代碼、模型、數據都開源,地址可在文末獲取。
效果展示
問題:這兩個人是什么關系?
A. 他們想引起人們對該產品的關注。
B. 這兩個人是商業伙伴,他們正試圖推銷他們的產品。
C. 他們在推銷另一種產品。
D. 看起來他們剛認識,以便他能在她的節目中展示他的產品。

創新與優勢
- 強制上下文總結與全模態推理
為實現這一目標,要求模型在推理之前,首先在一個標簽內輸出其對上下文信息的概括。這種強制性的上下文理解能夠有效避免模型跳過關鍵的多模態輸入信息,并在隨后的推理過程中提供全面的全局背景支持。
- 多維度獎勵機制引導
為了確保模型準確理解多模態上下文信息,引入了上下文獎勵 (Context Reward),并與格式獎勵 (Format Reward) 和準確性獎勵 (Accuracy Reward) 協同作用。上下文獎勵通過LLM進行評估,對比模型輸出的上下文與參考上下文的一致性,從而引導模型提升上下文理解能力。
- 復雜邏輯推理能力激勵
此外,為激勵模型發展更復雜的推理能力,還利用LLM評估其推理過程是否成功融合了多模態信息,并應用了反思、演繹、歸納等高級邏輯分析技術。其中,上下文獎勵的計算基于生成文本的上下文部分,而邏輯獎勵則關聯到生成文本的上下文和推理兩部分。
- 優化的GRPO訓練策略
基于Qwen2.5-Omni-Thinker,對GRPO訓練方法進行了關鍵改進,包括引入令牌級損失以克服長序列不平衡、移除問題級歸一化項以消除優化偏差,并應用動態KL散度以提升探索能力和訓練穩定性,從而全面提升了模型的訓練效率、公平性與魯棒性。
核心方法

在模型設計方面,以Qwen2.5-Omni-Thinker為基礎模型,并在此基礎上,對GRPO (Group Relative Policy Optimization)的基于最新研究的改進,以實現更高效、更穩定的訓練
首先,為了有效應對長序列訓練中普遍存在的不平衡問題,引入令牌級損失(Token-level Loss),這種細粒度的損失計算能夠確保在處理長樣本數據時,模型對每個Token的學習都能得到充分且平衡的優化,避免某些部分因序列過長而被忽視,從而顯著提升了訓練的效率和質量。
其次,移除了傳統的問題級歸一化項(Question-level Normalization Term)。經驗表明,該歸一化項可能導致不同問題在目標函數中擁有差異化的權重,進而引入優化上的難度偏差,影響模型對不同難度的學習效率。通過取消這一項,確保了優化過程對所有問題的一致性,從而促進模型更全面、更公平地學習和理解各類問題。
此外,為了進一步提升模型探索能力并確保訓練穩定性,巧妙地引入了動態KL散度(Dynamic KL Divergence)策略。這一機制能夠有效避免在訓練初期過度限制模型的自由探索空間,充分發揮其潛力;同時,也能防止在訓練后期模型行為出現發散,確保訓練過程的穩健性。動態KL散度的應用使得模型在整個訓練周期內能夠進行更充分的策略探索,并顯著提升了訓練的穩健性。
構建基于全局上下文的強化推理范式:針對現有模型全局上下文理解不足和推理捷徑問題,提出了一套創新的推理范式,包括:
強制性結構化響應格式(……),要求模型顯式地總結多模態上下文并進行反思性邏輯推理;
LLM驅動的多維獎勵機制,為確保模型準確解讀多模態上下文信息,引入了由大語言模型判斷的上下文獎勵(Context Reward),并輔以格式獎勵(Format Reward)和準確性獎勵(Accuracy Reward)。這使得模型能在生成響應時,更好地對齊人類的意圖和偏好。為了提升模型的復雜推理能力,進一步利用LLM評估其推理過程是否成功融合了反思、演繹、歸納等高級邏輯方法與多模態信息,提供邏輯性獎勵(Logical Reward)。通過上下文獎勵和邏輯獎勵(結合因果掩碼精確應用)來精確評估和激勵模型對多模態上下文的理解以及復雜的邏輯推理能力。
構建高質量數據集與基準
訓練MLLMs進行推理極具挑戰,主要原因在于缺乏大規模的人工標注推理數據。為此,創新性地構建了一個全模態推理訓練數據集,其中包含了圖像、視頻和音頻的理解任務,并融入了豐富的上下文信息,以支持模型在復雜場景下的推理學習。該數據集同時提供了多模態輸入的總結和推理路徑,適用于模型的冷啟動訓練和強化學習階段。
在開發全模態推理模型時面臨的另一個挑戰是缺乏有效的相關基準來評估其性能。為此,隆重推出了IntentBench,一個創新性的全模態基準,旨在評估模型在復雜場景中理解人類行為和意圖的能力。該基準包含633個視頻和2,689個相關問題,這些問題緊密關聯視頻中的聽覺和視覺線索,并要求模型對全局上下文、細致觀察和復雜社會關系有深刻的理解和推理。與主要側重于一般感知場景的Daily-Omni 和 WorldSense 相比,IntentBench更專注于評估全模態模型理解和推理復雜人類意圖和情感的能力。
實驗與結果
HumanOmniV2 在多個基準數據集上取得了突破性成果,它在開源全模態模型中取得了最佳性能,在Daily-Omni上達到58.47%,在WorldSense上達到47.1%,在全新引入的IntentBench上更是高達69.33%。相比當前其他開源全模態模型取得了顯著領先的成果。這標志著多模態AI在理解人類復雜意圖方面邁出了堅實一步,為未來更智能、更人性化的人工智能應用奠定了基礎。



核心貢獻總結:
創新性的推理范式: 提出模型在推理之前應先對多模態輸入進行上下文總結,旨在解決跳過關鍵多模態信息和上下文理解不足的問題。同時,通過上下文獎勵和邏輯獎勵激勵模型準確總結上下文并促進復雜推理。
高質量數據集與評測基準: 提供了一個包含多模態輸入總結和推理路徑的全模態推理訓練數據集,適用于冷啟動訓練和強化學習階段。此外,還精心策劃了一個以人為中心的全模態評估基準IntentBench,它要求模型同時理解視頻和音頻、全局上下文、復雜的社會關系以及細致的觀察。
領先的模型性能: 提出的HumanOmniV2在包括全新IntentBench、Daily-Omni和WorldSense在內的多個全模態基準測試中,相比現有開源全模態方法取得了最佳性能。
github:https://github.com/HumanMLLM/HumanOmniV2
arxiv:https://arxiv.org/abs/2506.21277
modelscope:https://modelscope.cn/models/iic/humanomniv2
huggingface:https://huggingface.co/PhilipC/HumanOmniV2
intentbench:https://huggingface.co/datasets/PhilipC/IntentBench




































