破解多模態大模型“選擇困難癥”！內部決策機制首次揭秘：在沖突信息間瘋狂"振蕩"

作者：量子位 2025-11-14 10:10:13

本文通過提出一個新框架，將模態跟隨重新定義為“相對推理不確定性”和“固有模態偏好”共同作用的動態過程。研究揭示了一條穩健的法則：模型跟隨一個模態的可能性，會隨著其相對不確定性的增加而單調下降。同時，“平衡點”為此固有偏好提供了原則性的度量。

多模態大語言模型（MLLMs）在處理來自圖像和文本等多種來源的信息時能力強大。

然而，一個關鍵挑戰隨之而來：當這些模態呈現相互沖突的信息時（例如，圖像顯示一輛藍色汽車，而文本描述它為紅色），MLLM必須解決這種沖突。模型最終輸出與某一模態信息保持一致的行為，稱之為“模態跟隨”（modality following）。

以往的研究大多試圖用粗粒度的、數據集層面的統計數據來衡量這種行為，但這忽視了一個至關重要的因素：模型在進行單模態推理時，對每個具體案例的“置信度”（即不確定性）是不同的。

本文的核心論點是，這種宏觀的“模態跟隨”統計數據具有誤導性，因為它混淆了模型的能力和偏好。我們提出，模態跟隨并非一個靜態屬性，而是一個動態過程，它由兩個更深層次的因素相互作用所支配：

相對推理不確定性（Relative Reasoning Uncertainty）：在單個具體案例上，模型對文本推理和視覺推理的置信度差距。固有模態偏好（Inherent Modality Preference）：當模型感知到兩種模態的不確定性（即推理難度）相等時，其內在的、穩定的偏向。

本文的主要作者來自北京大學、華南理工大學、佐治亞大學以及KAUST和MBZUAI。研究團隊的核心成員包括擔任第一作者的北京大學博士生張卓然、北京大學博士生史陽、華南理工大學的本科生王騰岳以及來自佐治亞大學的博士生宮熙琳。本文的通訊作者為KAUST王帝老師和MBZUAI胡麗杰老師。

該篇工作的主要貢獻和結論包括：

（1）構建了一個新的玩具數據集，可以系統地、獨立地改變視覺和文本輸入的推理難度，從而實現不同難度的多模態組合輸入。

（2）首次提出將“模態跟隨”這一外顯行為分解為兩個核心組成部分：案例特定的“相對推理不確定性”和模型穩定的“固有模態偏好” 。這一框架旨在將模型的單模態能力（反映為不確定性）與其內在偏見（固有偏好）清晰地解耦。

（3）實證發現了一個基本規律——模型跟隨某一模態的概率，會隨著該模態相對推理不確定性的增加而單調遞減。

（4）該框架提供了一種更合理、更少混淆的“固有偏好”量化方法。研究者將模型偏好定義為該單調曲線上的“平衡點”（balance point） ——即模型對兩種模態“同等看待”（50%跟隨概率）時所需的相對不確定性補償值。這成功地將“固有偏好”從“數據集偽影”和“單模態能力”中分離出來。

（5）深入探究了模型內部的決策機制，發現在“模糊區域”（即相對不確定性接近模型的“平衡點”）時，模型的逐層預測會在兩種沖突答案之間表現出強烈的“振蕩”（oscillations）。這種內部的猶豫不決，為模型在外部觀察到的平均化選擇行為提供了機制性的解釋。

框架設計：可控數據集與不確定性度量

圖1：展示了整個圍繞相對不確定性構建的模態偏好評測框架。*

1. 可控數據集

為了系統地驗證假設，研究者必須建立一個受控的實驗環境。為此，他們構建了一個新穎的可控“玩具”數據集，其核心特性是能夠通過兩個獨立的設計等級——視覺難度和文本難度——來系統地、獨立地控制兩種模態的推理復雜性，如圖1a所示

視覺難度：控制感知的困難度。例如，低難度可能是一個清晰、單獨的紅色方塊，而高難度則可能將其呈現為在多個彩色干擾形狀中被部分遮擋的小物體。
文本難度：控制推理的復雜性。例如，在表達沖突信息（藍色方塊）時，低難度可能是直接陳述（如“方塊是藍色的”），而高難度則需要多步關系推理（如“方塊的顏色和藍閃蝶翅膀一樣”）。

2. 不確定性度量

雖然設計等級提供了人類可解釋的難度，但分析需要一個以模型為中心、能反映其自身感知不確定性的指標。為此，研究采用了輸出答案詞元（token）的輸出熵（Entropy）作為精細化的不確定性度量。

低熵值表示一個自信、尖銳的預測（如“紅色”概率很高），而高熵值則表明模型還在考慮其他替代選項（如“橙色”、“棕色”），反映了其更高的不確定性。隨后的單模態熵趨勢分析（如圖2所示）有力地證實了這一點：熵值隨著設計難度的增加而一致上升，驗證了熵作為模型感知不確定性代理指標的有效性。

3. 相對不確定性

為了量化模型在每個沖突案例中的“置信度差距”，研究者引入了“相對單模態不確定性”。該指標通過一個公式來計算，如圖1c所示，即（文本熵減去視覺熵的差值）除以（兩者之和），最后再進行歸一化處理，從而測量了文本熵和視覺熵之間的歸一化差異。這一指標構成了后續分析的核心。在這個定義下，負值表示模型對文本更自信（即文本更容易），而正值則表示模型對視覺更自信（即視覺更容易）。

圖2：展示構造數據集上文本和視覺單模態上的輸出熵隨著難度的變化趨勢。

傳統指標的局限性

研究者首先在構建的可控數據集上，針對LLaVA和Qwen-VL系列等6個MLLM，使用傳統的宏觀指標（如“文本跟隨率”TFR和“視覺跟隨率”VFR）進行了測試。結果如圖3所示，發現了兩種令人困惑的組合模式，充分暴露了這些宏觀指標的局限性。

相似的難度感知，相反的宏觀偏好

首先，當觀察精細化的“相對不確定性”分布時，研究發現一個普遍趨勢：對LLaVA系列和Qwen2.5-VL等大多數模型而言，該數據集的文本模態在平均水平上更容易處理（即不確定性更低）。然而，這些模型在宏觀指標上的表現卻截然相反：LLaVA系列呈現出強烈的“文本跟隨”傾向，而Qwen2.5-VL卻顯著地“跟隨視覺”。這就引出了第一個謎題：既然這些模型都感知到文本模態更簡單、更確定，為什么它們最終的宏觀選擇會完全相反?

相似的宏觀偏好，相反的難度感知

其次，對比Qwen2-VL和Qwen2.5-VL。在宏觀指標上，兩者都表現出“跟隨視覺”的相似傾向（甚至 Qwen2-VL 的視覺傾向更顯著）。然而，它們各自感知的“相對不確定性”分布卻截然不同：

對Qwen2-VL而言，更多的數據點落在了“視覺更容易”（即視覺不確定性更低）的區間；而Qwen2.5-VL面臨的卻是前述的“文本更容易”的分布。

這就引出了第二個謎題：同樣是“跟隨視覺”，Qwen2-VL的行為似乎可以被“選擇更簡單的選項”來解釋，但 Qwen2.5-VL卻是在盡管文本更簡單的情況下，也依然選擇了視覺。

這兩個矛盾共同指向了一個核心問題：導致宏觀指標結果的根本原因究竟是什么？是一種由數據集難度偏向和模型特定能力共同作用下產生的“數據集偽影”（dataset artifact），還是一種更深層、更頑固的“固有模態偏好”（inherent preference）？

傳統的宏觀指標（TFR/VFR）之所以具有誤導性，正是因為它將這兩個完全不同的因素——即模型的“單模態能力”（反映為感知到的不確定性）和其“固有偏好”——混為一談，從而讓我們無法看清模型決策的真正動機。

圖3a：展示構造數據集上文本和視覺傳統跟隨指標。

圖3b：展示構造數據集上文本和視覺單模態上的相對不確定度分布。

實驗新范式：解耦能力與偏好

為了解決上述矛盾，并揭示被宏觀指標所掩蓋的真實動機，研究者設計了一種全新的實驗范式。這就好比我們想評估一個學生是“更偏愛用漢語”還是“更偏愛用英語”答題。這個學生的漢語能力和英語能力（即“單模態能力”）可能并不均衡。如果我們只統計他最終用了哪種語言（即傳統的“宏觀指標”），我們可能只是在測量他的能力（他當然會用他更擅長的語言），而不是他內心的偏好。傳統指標錯誤地將這兩個因素混為一談。

正確的做法是，我們應該針對每一種難度組合（例如，簡單的漢語 vs. 困難的英語）來觀察他的選擇，從而繪制一條完整的“偏好曲線”。本研究正是采用了這種思路。

研究者不再依賴一個總的“文本跟隨率” ，而是將所有數據點根據其“相對不確定性”（一個量化模型對兩種模態置信度差距的指標）進行分組。

然后，他們計算了每個“相對不確定性”區間內的“文本跟隨率” 。這相當于以“相對不確定性”為橫軸（歸一化了兩種模態的難度差異），以“文本跟隨概率”為縱軸，繪制出了一條能反映模型偏好隨相對難度動態變化的完整曲線。

主要實驗發現

當在這種歸一化的視圖下重新審視模型時，先前所有的混亂和矛盾都消失了，取而代之的是幾個清晰且統一的結論，圖4同時展示了在本文構造的顏色識別數據集和現有的模態跟隨數據集MC^2的顏色識別子集上的文本跟隨占比與相對不確定度分布之間的關系：

1. 統一的單調法則

被測試的六個模型，無論其架構或規模如何，都展現出一種驚人的一致性：隨著文本變得相對更難（即其不確定性相較于視覺更高），模型跟隨文本的概率都呈現出平滑且嚴格的單調遞減趨勢。這一發現強有力地證實了論文的核心假設：模態跟隨并非一個固定的屬性，而是一個由相對推理不確定性動態支配的動態行為。

2. “平衡點”量化固有偏好

雖然所有模型都遵循這條單調法則，但它們的曲線在“相對不確定性”軸上的位置各不相同。研究者將曲線穿過50%概率線的那個點定義為“平衡點”。這個“平衡點”提供了一個原則性的、可量化的指標，用以衡量我們之前提到的“固有模態偏好”。

其含義是：一個平衡點偏向負值（即視覺更容易）的模型，意味著它具有強烈的固有視覺偏好。因為即使文本模態的確定性顯著高于視覺模態（即文本更容易），該模型也僅僅是將其視為“旗鼓相當”（50%概率）。反之，平衡點偏向正值則代表固有的文本偏好。

3. 解釋宏觀指標

這個“平衡點”框架最終成功解開了前面提到的兩個謎題：

為何LLaVA和Qwen2.5-VL在相似的難度感知下，表現出相反的偏好？

答案是：因為它們的固有偏好（即“平衡點”）不同。LLaVA系列模型的平衡點接近于零或為正，呈現中性或文本偏好。而Qwen系列模型則具有明確的負值平衡點，顯示出強烈的固有視覺偏好。正是這個在宏觀指標下不可見的“固有偏好”差異，驅動了它們最終的決策分歧。

為何Qwen2-VL和Qwen2.5-VL在宏觀偏好相似時，其難度感知卻相反？

答案是：這揭示了“數據集偽影”。Qwen2-VL的“視覺跟隨”在很大程度上是由其強大的視覺能力所驅動的——即它真的覺得視覺更容易。而新的曲線圖顯示，Qwen2.5-VL的平衡點實際上更偏向視覺（位置更負），這意味著它擁有更強的固有視覺偏好，因為它即使在文本明顯更容易的情況下，也依然頑固地信任視覺。

圖4a：本文構造的構造數據集上文本跟隨占比與相對不確定度分布之間的單調關系。

圖4b：現有真實數據集mc^2的顏色識別子集上文本跟隨占比與相對不確定度分布之間的單調關系。

內部機制：面對不確定的“振蕩”

研究進一步探究了模型內部的決策機制：為何模型在接近其“平衡點”時會表現出猶豫和平均化的選擇？研究者通過采用類似 LogitLens 的技術，逐層探查模型的預測來進行分析。

清晰區域 vs. 模糊區域

研究將輸入分為兩類：當相對不確定性遠離平衡點時，稱為“清晰區域”（即一個模態明顯更容易）；當相對不確定性接近平衡點時，稱為“模糊區域”。

內部振蕩

研究定義了“振蕩”次數，即模型在信息前向傳播時，其在各層解碼出的最可能預測答案在“文本答案”和“視覺答案”之間切換的次數。

圖5：模糊區域（斜線）vs清晰區域（空白），模態輸入沖突（深色）vs無關沖突（淺色）對比的平均振蕩次數柱狀圖。

核心發現

如圖5所示，在所有模型中，當提問的信息在兩個模態輸入沖突時，“模糊區域”內的振蕩次數顯著高于“清晰區域”，且顯著高于無關沖突時。說明沖突模態輸入的模糊區域的選擇搖擺，一定程度來自于這種內部的反復“振蕩”，為模型在外部表現出的猶豫不決提供了機制性的解釋。進一步的 Logit 差異熱圖圖6也證實了這一點：在清晰區域，模型在淺層就迅速、自信地確定了答案；而在模糊區域，兩種沖突答案的置信度差異在多層中都保持在零附近，表明模型處于高度不確定的狀態。

圖6：文本模態答案與圖像模態答案logits差值。紅色代表跟隨圖像模態信心更強，藍色代表跟隨文本，顏色越淺代表越搖擺，縱軸從下往上文本相對不確定度更高（即更難）。

總結

以往對“模態跟隨”的研究依賴于粗粒度的數據集統計，忽視了單模態不確定性差異對結果的影響，并常常將模型的能力與其內在偏見混為一談。

本文通過提出一個新框架，將模態跟隨重新定義為“相對推理不確定性”和“固有模態偏好”共同作用的動態過程。研究揭示了一條穩健的法則：模型跟隨一個模態的可能性，會隨著其相對不確定性的增加而單調下降。同時，“平衡點”為此固有偏好提供了原則性的度量。

此外，通過揭示模型在模糊區域的內部“振蕩”機制，本框架成功地將模型的能力（表現為不確定性）與其偏好（表現為平衡點）分離開來，為理解和改進多模態大語言模型的決策動態提供了更清晰的視角。

論文：https://arxiv.org/abs/2511.02243

責任編輯：武曉燕來源：量子位

多模態大模型內部決策機制

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看