国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

破解多模態大模型“選擇困難癥”!內部決策機制首次揭秘:在沖突信息間瘋狂"振蕩"

人工智能
本文通過提出一個新框架,將模態跟隨重新定義為“相對推理不確定性”和“固有模態偏好”共同作用的動態過程。研究揭示了一條穩健的法則:模型跟隨一個模態的可能性,會隨著其相對不確定性的增加而單調下降。同時,“平衡點”為此固有偏好提供了原則性的度量。

多模態大語言模型(MLLMs)在處理來自圖像和文本等多種來源的信息時能力強大 。

然而,一個關鍵挑戰隨之而來:當這些模態呈現相互沖突的信息時(例如,圖像顯示一輛藍色汽車,而文本描述它為紅色),MLLM必須解決這種沖突 。模型最終輸出與某一模態信息保持一致的行為,稱之為“模態跟隨”(modality following) 。

以往的研究大多試圖用粗粒度的、數據集層面的統計數據來衡量這種行為 ,但這忽視了一個至關重要的因素:模型在進行單模態推理時,對每個具體案例的“置信度”(即不確定性)是不同的 。

本文的核心論點是,這種宏觀的“模態跟隨”統計數據具有誤導性,因為它混淆了模型的能力和偏好。我們提出,模態跟隨并非一個靜態屬性,而是一個動態過程,它由兩個更深層次的因素相互作用所支配:

相對推理不確定性(Relative Reasoning Uncertainty):在單個具體案例上,模型對文本推理和視覺推理的置信度差距 。固有模態偏好(Inherent Modality Preference):當模型感知到兩種模態的不確定性(即推理難度)相等時,其內在的、穩定的偏向 。

圖片

本文的主要作者來自北京大學、華南理工大學、佐治亞大學以及KAUST和MBZUAI。研究團隊的核心成員包括擔任第一作者的北京大學博士生張卓然、北京大學博士生史陽、華南理工大學的本科生王騰岳以及來自佐治亞大學的博士生宮熙琳。本文的通訊作者為KAUST王帝老師和MBZUAI胡麗杰老師。

該篇工作的主要貢獻和結論包括:

(1)構建了一個新的玩具數據集,可以系統地、獨立地改變視覺和文本輸入的推理難度,從而實現不同難度的多模態組合輸入。

(2)首次提出將“模態跟隨”這一外顯行為分解為兩個核心組成部分:案例特定的“相對推理不確定性”和模型穩定的“固有模態偏好” 。這一框架旨在將模型的單模態能力(反映為不確定性)與其內在偏見(固有偏好)清晰地解耦。

(3)實證發現了一個基本規律——模型跟隨某一模態的概率,會隨著該模態相對推理不確定性的增加而單調遞減。

(4)該框架提供了一種更合理、更少混淆的“固有偏好”量化方法。研究者將模型偏好定義為該單調曲線上的“平衡點”(balance point) ——即模型對兩種模態“同等看待”(50%跟隨概率)時所需的相對不確定性補償值 。這成功地將“固有偏好”從“數據集偽影”和“單模態能力”中分離出來。

(5)深入探究了模型內部的決策機制,發現在“模糊區域”(即相對不確定性接近模型的“平衡點”)時,模型的逐層預測會在兩種沖突答案之間表現出強烈的“振蕩”(oscillations)。這種內部的猶豫不決,為模型在外部觀察到的平均化選擇行為提供了機制性的解釋。

框架設計:可控數據集與不確定性度量

圖片

  • 圖1:展示了整個圍繞相對不確定性構建的模態偏好評測框架。*

1. 可控數據集

為了系統地驗證假設,研究者必須建立一個受控的實驗環境。為此,他們構建了一個新穎的可控“玩具”數據集,其核心特性是能夠通過兩個獨立的設計等級——視覺難度文本難度——來系統地、獨立地控制兩種模態的推理復雜性,如圖1a所示

  • 視覺難度:控制感知的困難度。例如,低難度可能是一個清晰、單獨的紅色方塊,而高難度則可能將其呈現為在多個彩色干擾形狀中被部分遮擋的小物體。
  • 文本難度:控制推理的復雜性。例如,在表達沖突信息(藍色方塊)時,低難度可能是直接陳述(如“方塊是藍色的”),而高難度則需要多步關系推理(如“方塊的顏色和藍閃蝶翅膀一樣”)。

2. 不確定性度量

雖然設計等級提供了人類可解釋的難度,但分析需要一個以模型為中心、能反映其自身感知不確定性的指標。為此,研究采用了輸出答案詞元(token)的輸出熵(Entropy)作為精細化的不確定性度量。

低熵值表示一個自信、尖銳的預測(如“紅色”概率很高),而高熵值則表明模型還在考慮其他替代選項(如“橙色”、“棕色”),反映了其更高的不確定性。隨后的單模態熵趨勢分析(如圖2所示)有力地證實了這一點:熵值隨著設計難度的增加而一致上升,驗證了熵作為模型感知不確定性代理指標的有效性。

3. 相對不確定性

為了量化模型在每個沖突案例中的“置信度差距”,研究者引入了“相對單模態不確定性”。該指標通過一個公式來計算,如圖1c所示,即(文本熵減去視覺熵的差值)除以(兩者之和),最后再進行歸一化處理,從而測量了文本熵和視覺熵之間的歸一化差異。這一指標構成了后續分析的核心。在這個定義下,負值表示模型對文本更自信(即文本更容易),而正值則表示模型對視覺更自信(即視覺更容易)。

圖片

圖2:展示構造數據集上文本和視覺單模態上的輸出熵隨著難度的變化趨勢。

傳統指標的局限性

研究者首先在構建的可控數據集上,針對LLaVA和Qwen-VL系列等6個MLLM,使用傳統的宏觀指標(如“文本跟隨率”TFR和“視覺跟隨率”VFR)進行了測試。結果如圖3所示,發現了兩種令人困惑的組合模式,充分暴露了這些宏觀指標的局限性。

相似的難度感知,相反的宏觀偏好

首先,當觀察精細化的“相對不確定性”分布時,研究發現一個普遍趨勢:對LLaVA系列和Qwen2.5-VL等大多數模型而言,該數據集的文本模態在平均水平上更容易處理(即不確定性更低)。然而,這些模型在宏觀指標上的表現卻截然相反:LLaVA系列呈現出強烈的“文本跟隨”傾向,而Qwen2.5-VL卻顯著地“跟隨視覺”。這就引出了第一個謎題:既然這些模型都感知到文本模態更簡單、更確定,為什么它們最終的宏觀選擇會完全相反?

相似的宏觀偏好,相反的難度感知

其次,對比Qwen2-VL和Qwen2.5-VL。在宏觀指標上,兩者都表現出“跟隨視覺”的相似傾向(甚至 Qwen2-VL 的視覺傾向更顯著)。然而,它們各自感知的“相對不確定性”分布卻截然不同:

對Qwen2-VL而言,更多的數據點落在了“視覺更容易”(即視覺不確定性更低)的區間;而Qwen2.5-VL面臨的卻是前述的“文本更容易”的分布。

這就引出了第二個謎題:同樣是“跟隨視覺”,Qwen2-VL的行為似乎可以被“選擇更簡單的選項”來解釋,但 Qwen2.5-VL卻是在盡管文本更簡單的情況下,也依然選擇了視覺。

這兩個矛盾共同指向了一個核心問題:導致宏觀指標結果的根本原因究竟是什么?是一種由數據集難度偏向和模型特定能力共同作用下產生的“數據集偽影”(dataset artifact),還是一種更深層、更頑固的“固有模態偏好”(inherent preference)?

傳統的宏觀指標(TFR/VFR)之所以具有誤導性,正是因為它將這兩個完全不同的因素——即模型的“單模態能力”(反映為感知到的不確定性)和其“固有偏好”——混為一談,從而讓我們無法看清模型決策的真正動機。

圖片

圖3a:展示構造數據集上文本和視覺傳統跟隨指標。

圖片圖3b:展示構造數據集上文本和視覺單模態上的相對不確定度分布。

實驗新范式:解耦能力與偏好

為了解決上述矛盾,并揭示被宏觀指標所掩蓋的真實動機,研究者設計了一種全新的實驗范式。這就好比我們想評估一個學生是“更偏愛用漢語”還是“更偏愛用英語”答題。這個學生的漢語能力和英語能力(即“單模態能力”)可能并不均衡。如果我們只統計他最終用了哪種語言(即傳統的“宏觀指標”),我們可能只是在測量他的能力(他當然會用他更擅長的語言),而不是他內心的偏好 。傳統指標錯誤地將這兩個因素混為一談。

正確的做法是,我們應該針對每一種難度組合(例如,簡單的漢語 vs. 困難的英語)來觀察他的選擇,從而繪制一條完整的“偏好曲線”。本研究正是采用了這種思路。

研究者不再依賴一個總的“文本跟隨率” ,而是將所有數據點根據其“相對不確定性”(一個量化模型對兩種模態置信度差距的指標)進行分組。

然后,他們計算了每個“相對不確定性”區間內的“文本跟隨率” 。這相當于以“相對不確定性”為橫軸(歸一化了兩種模態的難度差異),以“文本跟隨概率”為縱軸,繪制出了一條能反映模型偏好隨相對難度動態變化的完整曲線。

主要實驗發現

當在這種歸一化的視圖下重新審視模型時,先前所有的混亂和矛盾都消失了,取而代之的是幾個清晰且統一的結論,圖4同時展示了在本文構造的顏色識別數據集和現有的模態跟隨數據集MC^2的顏色識別子集上的文本跟隨占比與相對不確定度分布之間的關系:

1. 統一的單調法則

被測試的六個模型,無論其架構或規模如何,都展現出一種驚人的一致性:隨著文本變得相對更難(即其不確定性相較于視覺更高),模型跟隨文本的概率都呈現出平滑且嚴格的單調遞減趨勢。這一發現強有力地證實了論文的核心假設:模態跟隨并非一個固定的屬性,而是一個由相對推理不確定性動態支配的動態行為。

2. “平衡點”量化固有偏好

雖然所有模型都遵循這條單調法則,但它們的曲線在“相對不確定性”軸上的位置各不相同。研究者將曲線穿過50%概率線的那個點定義為“平衡點”。這個“平衡點”提供了一個原則性的、可量化的指標,用以衡量我們之前提到的“固有模態偏好”。

其含義是:一個平衡點偏向負值(即視覺更容易)的模型,意味著它具有強烈的固有視覺偏好。因為即使文本模態的確定性顯著高于視覺模態(即文本更容易),該模型也僅僅是將其視為“旗鼓相當”(50%概率)。反之,平衡點偏向正值則代表固有的文本偏好。

3. 解釋宏觀指標

這個“平衡點”框架最終成功解開了前面提到的兩個謎題:

為何LLaVA和Qwen2.5-VL在相似的難度感知下,表現出相反的偏好?

答案是:因為它們的固有偏好(即“平衡點”)不同。LLaVA系列模型的平衡點接近于零或為正,呈現中性或文本偏好。而Qwen系列模型則具有明確的負值平衡點,顯示出強烈的固有視覺偏好。正是這個在宏觀指標下不可見的“固有偏好”差異,驅動了它們最終的決策分歧。

為何Qwen2-VL和Qwen2.5-VL在宏觀偏好相似時,其難度感知卻相反?

答案是:這揭示了“數據集偽影”。Qwen2-VL的“視覺跟隨”在很大程度上是由其強大的視覺能力所驅動的——即它真的覺得視覺更容易。而新的曲線圖顯示,Qwen2.5-VL的平衡點實際上更偏向視覺(位置更負),這意味著它擁有更強的固有視覺偏好,因為它即使在文本明顯更容易的情況下,也依然頑固地信任視覺。

圖片

圖4a:本文構造的構造數據集上文本跟隨占比與相對不確定度分布之間的單調關系。

圖片

圖4b:現有真實數據集mc^2的顏色識別子集上文本跟隨占比與相對不確定度分布之間的單調關系。

內部機制:面對不確定的“振蕩”

研究進一步探究了模型內部的決策機制:為何模型在接近其“平衡點”時會表現出猶豫和平均化的選擇? 研究者通過采用類似 LogitLens 的技術,逐層探查模型的預測來進行分析。

清晰區域 vs. 模糊區域

研究將輸入分為兩類:當相對不確定性遠離平衡點時,稱為“清晰區域”(即一個模態明顯更容易);當相對不確定性接近平衡點時,稱為“模糊區域”。

內部振蕩

研究定義了“振蕩”次數,即模型在信息前向傳播時,其在各層解碼出的最可能預測答案在“文本答案”和“視覺答案”之間切換的次數。

圖片

圖5:模糊區域(斜線)vs清晰區域(空白),模態輸入沖突(深色)vs無關沖突(淺色)對比的平均振蕩次數柱狀圖。

核心發現

如圖5所示,在所有模型中,當提問的信息在兩個模態輸入沖突時,“模糊區域”內的振蕩次數顯著高于“清晰區域”,且顯著高于無關沖突時。說明沖突模態輸入的模糊區域的選擇搖擺,一定程度來自于這種內部的反復“振蕩”,為模型在外部表現出的猶豫不決提供了機制性的解釋。進一步的 Logit 差異熱圖圖6也證實了這一點:在清晰區域,模型在淺層就迅速、自信地確定了答案;而在模糊區域,兩種沖突答案的置信度差異在多層中都保持在零附近,表明模型處于高度不確定的狀態。

圖片

圖6:文本模態答案與圖像模態答案logits差值。紅色代表跟隨圖像模態信心更強,藍色代表跟隨文本,顏色越淺代表越搖擺,縱軸從下往上文本相對不確定度更高(即更難)。

總結

以往對“模態跟隨”的研究依賴于粗粒度的數據集統計,忽視了單模態不確定性差異對結果的影響,并常常將模型的能力與其內在偏見混為一談。

本文通過提出一個新框架,將模態跟隨重新定義為“相對推理不確定性”“固有模態偏好”共同作用的動態過程。研究揭示了一條穩健的法則:模型跟隨一個模態的可能性,會隨著其相對不確定性的增加而單調下降。同時,“平衡點”為此固有偏好提供了原則性的度量。

此外,通過揭示模型在模糊區域的內部“振蕩”機制,本框架成功地將模型的能力(表現為不確定性)與其偏好(表現為平衡點)分離開來,為理解和改進多模態大語言模型的決策動態提供了更清晰的視角。

論文:https://arxiv.org/abs/2511.02243

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-01-08 08:21:16

2025-05-21 08:47:00

2015-08-04 17:32:03

CDN

2024-06-12 08:30:34

2022-09-18 21:18:43

架構Redis

2015-12-02 11:31:49

SCv2000企業存儲

2025-09-16 09:35:52

2017-05-31 09:12:51

機器學習算法數據

2025-07-29 08:40:00

模型AILLM

2024-12-30 00:01:00

多模態大模型Python

2025-10-10 09:06:15

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-25 14:53:00

2024-08-27 09:34:24

2013-09-12 11:32:25

創業必備移動互聯網市場

2025-06-27 09:31:25

2024-03-12 09:24:38

智能駕駛
點贊
收藏

51CTO技術棧公眾號

亚洲精品国精品久久99热一| 中文字幕久精品免费视频| 日韩av中文| 国产成人免费视| 欧美一级特黄a| 欧美精品v日韩精品v韩国精品v| 在线黄色网页| 欧美日中文字幕| 精品蜜桃在线看| 91精品国偷自产在线电影 | 天堂资源在线亚洲| 成人短视频在线观看免费| 欧美艳星brazzers| 国内揄拍国内精品久久| 色琪琪丁香婷婷综合久久| 97欧美精品一区二区三区| 久久久www成人免费毛片麻豆| 污视频网站免费在线观看| 国产成人高潮免费观看精品| 中文字幕在线观看不卡| 国内自拍亚洲| 国产乱淫av片杨贵妃| 精品小视频在线| 麻豆精品一二三| 一色桃子av在线| ijzzijzzij亚洲大全| 亚洲欧美一区二区三区在线 | 综合激情丁香| 国产999精品| 一本色道a无线码一区v| 欧美精品啪啪| 深夜福利在线观看直播| 欧美中文在线观看| 五月综合激情日本mⅴ| 欧美午夜久久| 天堂8中文在线最新版在线| 中文字幕无码精品亚洲35| 欧美成人免费在线观看| 婷婷综合久久一区二区三区| 国产精品一区毛片| 日韩精品欧美| 北条麻妃在线视频观看| 日韩精品一区二区三区蜜臀| 国产综合色视频| 国产一区二区三区不卡av| 啦啦啦在线视频免费观看高清中文 | 久久久国产精华| 狠狠做六月爱婷婷综合aⅴ| 第一福利在线| www.好吊操| 成人国产精品久久久| 91久久人澡人人添人人爽欧美| 亚洲高清在线| 日本亚洲视频| 免费av网址在线| 91夜夜未满十八勿入爽爽影院| 精品欧美久久久| 最新不卡av在线| 另类成人小视频在线| 日韩美女毛片| 欧美成人ⅴideosxxxxx| 天堂аⅴ在线最新版在线| 五月天综合婷婷| 亚洲一区中文字幕| 久久久久久久成人| 7777精品伊人久久久大香线蕉经典版下载| 日韩高清不卡在线| 丝袜老师在线| 国产一级片在线| 簧片在线免费看| www.亚洲成人网| 亚洲国产精品www| 亚洲一区二区三区视频| 久久久噜噜噜久噜久久| 亚洲第一综合天堂另类专| 在线观看区一区二| 国产欧美综合在线观看第十页| 亚洲宅男网av| 国产精品偷拍| 欧美福利网站| 男女啪啪网站视频| 亚洲人一区二区| 亚洲资源在线看| 国产成+人+综合+亚洲欧美丁香花| 在线视频亚洲欧美| 精品在线观看国产| 精品国产免费一区二区三区四区 | 亚洲国产午夜伦理片大全在线观看网站 | 丁香花在线影院| av免费在线观看网站| 麻豆视频网站在线观看| 老太脱裤让老头玩ⅹxxxx| 日韩欧美三级电影| 欧美激情视频一区二区三区| 区一区二区三区中文字幕| 日韩三级在线播放| 欧美日韩电影一区二区| 视频一区三区| 熟女少妇在线视频播放| 亚洲熟妇av一区二区三区漫画| 欧洲av无码放荡人妇网站| 成人xxx免费视频播放| 日本中文视频| 亚洲精品传媒| 奇米777日韩| 国产精品香蕉| 欧美日本久久| 国产麻豆欧美日韩一区| 亚洲成av人片一区二区三区| 另类图片综合电影| 久久国产日韩欧美| 欧美激情按摩在线| 日韩av电影国产| 欧美一区1区三区3区公司 | 中文字幕亚洲在| 欧美日韩精品在线观看| 欧洲一区二区av| 日韩在线欧美在线| 国产精品久久久久av免费| 久久综合久久久| 日韩成人手机在线| 在线播放av片| 欧美人与性动交α欧美精品济南到| 巨茎人妖videos另类| 国产精品美女久久久久久不卡| 东京久久高清| 91精品亚洲| 2024国产精品| 亚洲精品在线一区二区| 欧美xxxx18性欧美| 亚洲xxxxx性| 国产成人手机视频| 污污免费网站| 欧美xxxx黑人又粗又长| 成人影院天天5g天天爽无毒影院| 激情欧美丁香| 久久新电视剧免费观看| 色狠狠桃花综合| 精品国产一区二区在线| 国产精品日韩电影| 激情五月宗合网| 美女免费免费看网站| 黄色成人在线观看| 99成人超碰| 丰满少妇久久久久久久| 久久影院资源站| 国产精品综合一区二区三区| 欧美日韩一区高清| 99国产超薄丝袜足j在线观看| 韩国成人一区| 国产精美视频| 国产素人视频在线观看| 欧美电影《轻佻寡妇》| 日本91福利区| 国产农村妇女毛片精品久久麻豆| 日韩精品在线观看一区| 国内外成人免费视频| 久久久久久久9| 黄视频在线免费看| 亚洲伊人网站| 色婷婷国产精品综合在线观看| 26uuu另类亚洲欧美日本一| 天天干在线影院| 亚洲免费毛片| 国产精品国产三级国产aⅴ原创| 日韩精品免费在线观看| 国产一级不卡视频| 怡红院红怡院欧美aⅴ怡春院| 成人在线免费观看网站| 亚洲线精品一区二区三区| 亚洲v日韩v综合v精品v| 91美女视频在线| 亚洲视频成人| 精品免费国产二区三区| 日韩av一区二区三区在线| 成人无遮挡免费网站视频在线观看 | 国产在线久久久| 在线看片你懂得| 老**午夜毛片一区二区三区| 亚洲国产成人一区| 丰满少妇久久久| 亚洲一二三区视频| 亚洲国产成人tv| 国产伦视频一区二区三区| 久久精品视频观看| 国产麻豆91精品| 精品国产欧美成人夜夜嗨| 99草草国产熟女视频在线| 妖精视频一区二区三区 | 亚洲国产91视频| 国产女人aaa级久久久级| 日本欧美精品在线| 色久视频在线播放| 91小视频免费看| 久久国产精品-国产精品| 日本欧美电影在线观看| 亚洲欧美视频在线观看| 一区二区三区久久网| 91精品国产91久久综合| 日韩风俗一区 二区|