国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

破解多模態大模型“選擇困難癥”!內部決策機制首次揭秘:在沖突信息間瘋狂"振蕩"

人工智能
本文通過提出一個新框架,將模態跟隨重新定義為“相對推理不確定性”和“固有模態偏好”共同作用的動態過程。研究揭示了一條穩健的法則:模型跟隨一個模態的可能性,會隨著其相對不確定性的增加而單調下降。同時,“平衡點”為此固有偏好提供了原則性的度量。

多模態大語言模型(MLLMs)在處理來自圖像和文本等多種來源的信息時能力強大 。

然而,一個關鍵挑戰隨之而來:當這些模態呈現相互沖突的信息時(例如,圖像顯示一輛藍色汽車,而文本描述它為紅色),MLLM必須解決這種沖突 。模型最終輸出與某一模態信息保持一致的行為,稱之為“模態跟隨”(modality following) 。

以往的研究大多試圖用粗粒度的、數據集層面的統計數據來衡量這種行為 ,但這忽視了一個至關重要的因素:模型在進行單模態推理時,對每個具體案例的“置信度”(即不確定性)是不同的 。

本文的核心論點是,這種宏觀的“模態跟隨”統計數據具有誤導性,因為它混淆了模型的能力和偏好。我們提出,模態跟隨并非一個靜態屬性,而是一個動態過程,它由兩個更深層次的因素相互作用所支配:

相對推理不確定性(Relative Reasoning Uncertainty):在單個具體案例上,模型對文本推理和視覺推理的置信度差距 。固有模態偏好(Inherent Modality Preference):當模型感知到兩種模態的不確定性(即推理難度)相等時,其內在的、穩定的偏向 。

圖片

本文的主要作者來自北京大學、華南理工大學、佐治亞大學以及KAUST和MBZUAI。研究團隊的核心成員包括擔任第一作者的北京大學博士生張卓然、北京大學博士生史陽、華南理工大學的本科生王騰岳以及來自佐治亞大學的博士生宮熙琳。本文的通訊作者為KAUST王帝老師和MBZUAI胡麗杰老師。

該篇工作的主要貢獻和結論包括:

(1)構建了一個新的玩具數據集,可以系統地、獨立地改變視覺和文本輸入的推理難度,從而實現不同難度的多模態組合輸入。

(2)首次提出將“模態跟隨”這一外顯行為分解為兩個核心組成部分:案例特定的“相對推理不確定性”和模型穩定的“固有模態偏好” 。這一框架旨在將模型的單模態能力(反映為不確定性)與其內在偏見(固有偏好)清晰地解耦。

(3)實證發現了一個基本規律——模型跟隨某一模態的概率,會隨著該模態相對推理不確定性的增加而單調遞減。

(4)該框架提供了一種更合理、更少混淆的“固有偏好”量化方法。研究者將模型偏好定義為該單調曲線上的“平衡點”(balance point) ——即模型對兩種模態“同等看待”(50%跟隨概率)時所需的相對不確定性補償值 。這成功地將“固有偏好”從“數據集偽影”和“單模態能力”中分離出來。

(5)深入探究了模型內部的決策機制,發現在“模糊區域”(即相對不確定性接近模型的“平衡點”)時,模型的逐層預測會在兩種沖突答案之間表現出強烈的“振蕩”(oscillations)。這種內部的猶豫不決,為模型在外部觀察到的平均化選擇行為提供了機制性的解釋。

框架設計:可控數據集與不確定性度量

圖片

  • 圖1:展示了整個圍繞相對不確定性構建的模態偏好評測框架。*

1. 可控數據集

為了系統地驗證假設,研究者必須建立一個受控的實驗環境。為此,他們構建了一個新穎的可控“玩具”數據集,其核心特性是能夠通過兩個獨立的設計等級——視覺難度文本難度——來系統地、獨立地控制兩種模態的推理復雜性,如圖1a所示

  • 視覺難度:控制感知的困難度。例如,低難度可能是一個清晰、單獨的紅色方塊,而高難度則可能將其呈現為在多個彩色干擾形狀中被部分遮擋的小物體。
  • 文本難度:控制推理的復雜性。例如,在表達沖突信息(藍色方塊)時,低難度可能是直接陳述(如“方塊是藍色的”),而高難度則需要多步關系推理(如“方塊的顏色和藍閃蝶翅膀一樣”)。

2. 不確定性度量

雖然設計等級提供了人類可解釋的難度,但分析需要一個以模型為中心、能反映其自身感知不確定性的指標。為此,研究采用了輸出答案詞元(token)的輸出熵(Entropy)作為精細化的不確定性度量。

低熵值表示一個自信、尖銳的預測(如“紅色”概率很高),而高熵值則表明模型還在考慮其他替代選項(如“橙色”、“棕色”),反映了其更高的不確定性。隨后的單模態熵趨勢分析(如圖2所示)有力地證實了這一點:熵值隨著設計難度的增加而一致上升,驗證了熵作為模型感知不確定性代理指標的有效性。

3. 相對不確定性

為了量化模型在每個沖突案例中的“置信度差距”,研究者引入了“相對單模態不確定性”。該指標通過一個公式來計算,如圖1c所示,即(文本熵減去視覺熵的差值)除以(兩者之和),最后再進行歸一化處理,從而測量了文本熵和視覺熵之間的歸一化差異。這一指標構成了后續分析的核心。在這個定義下,負值表示模型對文本更自信(即文本更容易),而正值則表示模型對視覺更自信(即視覺更容易)。

圖片

圖2:展示構造數據集上文本和視覺單模態上的輸出熵隨著難度的變化趨勢。

傳統指標的局限性

研究者首先在構建的可控數據集上,針對LLaVA和Qwen-VL系列等6個MLLM,使用傳統的宏觀指標(如“文本跟隨率”TFR和“視覺跟隨率”VFR)進行了測試。結果如圖3所示,發現了兩種令人困惑的組合模式,充分暴露了這些宏觀指標的局限性。

相似的難度感知,相反的宏觀偏好

首先,當觀察精細化的“相對不確定性”分布時,研究發現一個普遍趨勢:對LLaVA系列和Qwen2.5-VL等大多數模型而言,該數據集的文本模態在平均水平上更容易處理(即不確定性更低)。然而,這些模型在宏觀指標上的表現卻截然相反:LLaVA系列呈現出強烈的“文本跟隨”傾向,而Qwen2.5-VL卻顯著地“跟隨視覺”。這就引出了第一個謎題:既然這些模型都感知到文本模態更簡單、更確定,為什么它們最終的宏觀選擇會完全相反?

相似的宏觀偏好,相反的難度感知

其次,對比Qwen2-VL和Qwen2.5-VL。在宏觀指標上,兩者都表現出“跟隨視覺”的相似傾向(甚至 Qwen2-VL 的視覺傾向更顯著)。然而,它們各自感知的“相對不確定性”分布卻截然不同:

對Qwen2-VL而言,更多的數據點落在了“視覺更容易”(即視覺不確定性更低)的區間;而Qwen2.5-VL面臨的卻是前述的“文本更容易”的分布。

這就引出了第二個謎題:同樣是“跟隨視覺”,Qwen2-VL的行為似乎可以被“選擇更簡單的選項”來解釋,但 Qwen2.5-VL卻是在盡管文本更簡單的情況下,也依然選擇了視覺。

這兩個矛盾共同指向了一個核心問題:導致宏觀指標結果的根本原因究竟是什么?是一種由數據集難度偏向和模型特定能力共同作用下產生的“數據集偽影”(dataset artifact),還是一種更深層、更頑固的“固有模態偏好”(inherent preference)?

傳統的宏觀指標(TFR/VFR)之所以具有誤導性,正是因為它將這兩個完全不同的因素——即模型的“單模態能力”(反映為感知到的不確定性)和其“固有偏好”——混為一談,從而讓我們無法看清模型決策的真正動機。

圖片

圖3a:展示構造數據集上文本和視覺傳統跟隨指標。

圖片圖3b:展示構造數據集上文本和視覺單模態上的相對不確定度分布。

實驗新范式:解耦能力與偏好

為了解決上述矛盾,并揭示被宏觀指標所掩蓋的真實動機,研究者設計了一種全新的實驗范式。這就好比我們想評估一個學生是“更偏愛用漢語”還是“更偏愛用英語”答題。這個學生的漢語能力和英語能力(即“單模態能力”)可能并不均衡。如果我們只統計他最終用了哪種語言(即傳統的“宏觀指標”),我們可能只是在測量他的能力(他當然會用他更擅長的語言),而不是他內心的偏好 。傳統指標錯誤地將這兩個因素混為一談。

正確的做法是,我們應該針對每一種難度組合(例如,簡單的漢語 vs. 困難的英語)來觀察他的選擇,從而繪制一條完整的“偏好曲線”。本研究正是采用了這種思路。

研究者不再依賴一個總的“文本跟隨率” ,而是將所有數據點根據其“相對不確定性”(一個量化模型對兩種模態置信度差距的指標)進行分組。

然后,他們計算了每個“相對不確定性”區間內的“文本跟隨率” 。這相當于以“相對不確定性”為橫軸(歸一化了兩種模態的難度差異),以“文本跟隨概率”為縱軸,繪制出了一條能反映模型偏好隨相對難度動態變化的完整曲線。

主要實驗發現

當在這種歸一化的視圖下重新審視模型時,先前所有的混亂和矛盾都消失了,取而代之的是幾個清晰且統一的結論,圖4同時展示了在本文構造的顏色識別數據集和現有的模態跟隨數據集MC^2的顏色識別子集上的文本跟隨占比與相對不確定度分布之間的關系:

1. 統一的單調法則

被測試的六個模型,無論其架構或規模如何,都展現出一種驚人的一致性:隨著文本變得相對更難(即其不確定性相較于視覺更高),模型跟隨文本的概率都呈現出平滑且嚴格的單調遞減趨勢。這一發現強有力地證實了論文的核心假設:模態跟隨并非一個固定的屬性,而是一個由相對推理不確定性動態支配的動態行為。

2. “平衡點”量化固有偏好

雖然所有模型都遵循這條單調法則,但它們的曲線在“相對不確定性”軸上的位置各不相同。研究者將曲線穿過50%概率線的那個點定義為“平衡點”。這個“平衡點”提供了一個原則性的、可量化的指標,用以衡量我們之前提到的“固有模態偏好”。

其含義是:一個平衡點偏向負值(即視覺更容易)的模型,意味著它具有強烈的固有視覺偏好。因為即使文本模態的確定性顯著高于視覺模態(即文本更容易),該模型也僅僅是將其視為“旗鼓相當”(50%概率)。反之,平衡點偏向正值則代表固有的文本偏好。

3. 解釋宏觀指標

這個“平衡點”框架最終成功解開了前面提到的兩個謎題:

為何LLaVA和Qwen2.5-VL在相似的難度感知下,表現出相反的偏好?

答案是:因為它們的固有偏好(即“平衡點”)不同。LLaVA系列模型的平衡點接近于零或為正,呈現中性或文本偏好。而Qwen系列模型則具有明確的負值平衡點,顯示出強烈的固有視覺偏好。正是這個在宏觀指標下不可見的“固有偏好”差異,驅動了它們最終的決策分歧。

為何Qwen2-VL和Qwen2.5-VL在宏觀偏好相似時,其難度感知卻相反?

答案是:這揭示了“數據集偽影”。Qwen2-VL的“視覺跟隨”在很大程度上是由其強大的視覺能力所驅動的——即它真的覺得視覺更容易。而新的曲線圖顯示,Qwen2.5-VL的平衡點實際上更偏向視覺(位置更負),這意味著它擁有更強的固有視覺偏好,因為它即使在文本明顯更容易的情況下,也依然頑固地信任視覺。

圖片

圖4a:本文構造的構造數據集上文本跟隨占比與相對不確定度分布之間的單調關系。

圖片

圖4b:現有真實數據集mc^2的顏色識別子集上文本跟隨占比與相對不確定度分布之間的單調關系。

內部機制:面對不確定的“振蕩”

研究進一步探究了模型內部的決策機制:為何模型在接近其“平衡點”時會表現出猶豫和平均化的選擇? 研究者通過采用類似 LogitLens 的技術,逐層探查模型的預測來進行分析。

清晰區域 vs. 模糊區域

研究將輸入分為兩類:當相對不確定性遠離平衡點時,稱為“清晰區域”(即一個模態明顯更容易);當相對不確定性接近平衡點時,稱為“模糊區域”。

內部振蕩

研究定義了“振蕩”次數,即模型在信息前向傳播時,其在各層解碼出的最可能預測答案在“文本答案”和“視覺答案”之間切換的次數。

圖片

圖5:模糊區域(斜線)vs清晰區域(空白),模態輸入沖突(深色)vs無關沖突(淺色)對比的平均振蕩次數柱狀圖。

核心發現

如圖5所示,在所有模型中,當提問的信息在兩個模態輸入沖突時,“模糊區域”內的振蕩次數顯著高于“清晰區域”,且顯著高于無關沖突時。說明沖突模態輸入的模糊區域的選擇搖擺,一定程度來自于這種內部的反復“振蕩”,為模型在外部表現出的猶豫不決提供了機制性的解釋。進一步的 Logit 差異熱圖圖6也證實了這一點:在清晰區域,模型在淺層就迅速、自信地確定了答案;而在模糊區域,兩種沖突答案的置信度差異在多層中都保持在零附近,表明模型處于高度不確定的狀態。

圖片

圖6:文本模態答案與圖像模態答案logits差值。紅色代表跟隨圖像模態信心更強,藍色代表跟隨文本,顏色越淺代表越搖擺,縱軸從下往上文本相對不確定度更高(即更難)。

總結

以往對“模態跟隨”的研究依賴于粗粒度的數據集統計,忽視了單模態不確定性差異對結果的影響,并常常將模型的能力與其內在偏見混為一談。

本文通過提出一個新框架,將模態跟隨重新定義為“相對推理不確定性”“固有模態偏好”共同作用的動態過程。研究揭示了一條穩健的法則:模型跟隨一個模態的可能性,會隨著其相對不確定性的增加而單調下降。同時,“平衡點”為此固有偏好提供了原則性的度量。

此外,通過揭示模型在模糊區域的內部“振蕩”機制,本框架成功地將模型的能力(表現為不確定性)與其偏好(表現為平衡點)分離開來,為理解和改進多模態大語言模型的決策動態提供了更清晰的視角。

論文:https://arxiv.org/abs/2511.02243

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-01-08 08:21:16

2025-05-21 08:47:00

2015-08-04 17:32:03

CDN

2024-06-12 08:30:34

2022-09-18 21:18:43

架構Redis

2015-12-02 11:31:49

SCv2000企業存儲

2025-09-16 09:35:52

2017-05-31 09:12:51

機器學習算法數據

2025-07-29 08:40:00

模型AILLM

2024-12-30 00:01:00

多模態大模型Python

2025-10-10 09:06:15

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-25 14:53:00

2024-08-27 09:34:24

2013-09-12 11:32:25

創業必備移動互聯網市場

2025-06-27 09:31:25

2024-03-12 09:24:38

智能駕駛
點贊
收藏

51CTO技術棧公眾號

91亚洲精华国产精华精华液| 全球成人免费直播| www亚洲欧美| 玖玖在线免费视频| 韩国一区二区三区| 麻豆精品视频| 在线午夜精品| 国产亚洲福利社区| 一区二区国产在线| 国产男人精品视频| 五月综合久久| 国产91成人video| 久久a爱视频| 海角国产乱辈乱精品视频| 日韩欧乱色一区二区三区在线 | 高清不卡av| 精品日韩一区二区三区免费视频| 午夜视频在线看| 在线观看国产日韩| 精品视频一二区| 色偷偷成人一区二区三区91| 日韩精品乱码av一区二区| 欧美丝袜一区二区| 亚洲精品套图| 欧美最新大片在线看| 可以免费看污视频的网站在线| 欧美日韩亚洲成人| 黄色大片在线免费观看| 91国偷自产一区二区三区观看| 国产午夜在线观看| 欧美一区二区三区免费观看视频| 国产激情在线视频| 亚洲成人激情视频| 日本少妇一区| 欧美大片免费观看在线观看网站推荐| 中文字幕亚洲在线观看 | av资源种子在线观看| 欧美日韩国产一级| 免费亚洲一区二区| 成人美女免费网站视频| 欧洲毛片在线视频免费观看| 国产九九精品视频| 欧美激情亚洲| 亚洲最大免费| 国产午夜精品久久久久久免费视 | 狠狠色狠狠色综合| 日韩精品xxxx| 亚洲欧美国产77777| 日韩国产福利| 欧美精品一区二区三区四区| 久久亚洲人体| 国产精品aaaa| 免费日本视频一区| 99久久国产宗和精品1上映| 亚洲精品中文在线| 国产调教视频在线观看| 日日噜噜噜夜夜爽亚洲精品| 欧美人与牛zoz0性行为| 香蕉av一区| 精品盗摄一区二区三区| 久久久久久久久成人| 91视频免费网站| 免费人成精品欧美精品| 成人免费无码av| 天天色 色综合| 午夜精品成人av| 欧美在线www| 蜜臀a∨国产成人精品| 日韩一级片播放| 欧美日韩激情一区二区| 亚洲a成人v| 成人动漫视频在线观看免费| 菠萝蜜视频在线观看一区| 亚洲欧洲成人| 中文字幕免费国产精品| 欧美日韩一二三四| 日本一道在线观看| 偷拍一区二区三区| 激情久久一区二区| 精品久久久久久国产| 国内精品国产三级国产a久久| 成年人视频在线免费| 欧洲视频一区二区| 一区二区三区免费在线看| 国产精品.com| 欧美国产一区二区在线观看| 免费在线看黄| 91精品国产91久久久久久吃药| 影音先锋亚洲一区| 中文字幕第21页| 精品福利一二区| 国产精品不卡| 久久久精品麻豆| 亚洲国产精品va在线观看黑人| 欧美日韩国产在线观看网站| 2019日韩中文字幕mv| 欧美日韩国产免费| 国产成人1区| 亚洲国产精品毛片av不卡在线| 日韩欧美一区二区三区在线| 成人动漫免费在线观看| 日韩少妇内射免费播放| 精品成人一区二区| 天天av综合| 国产专区视频| 日韩中文字幕不卡视频| 曰本一区二区三区视频| 狠狠精品干练久久久无码中文字幕| 色综合久久九月婷婷色综合| 成人爽a毛片免费啪啪红桃视频| 国产经典久久久| 欧美二区乱c少妇| 欧美影院三区| 91人人网站| 国内偷自视频区视频综合 | 国产主播精品在线| 欧美国产综合色视频| 麻豆网站免费在线观看| 国产伦精品一区二区三区高清版| 亚洲欧美日韩系列| 亚洲91网站| 免费观看国产精品视频| 欧美xxxxxxxx| 亚洲欧美日韩一区在线观看| 啊v视频在线| 玉米视频成人免费看| 亚洲线精品一区二区三区| 日本久久一区| 亚洲美免无码中文字幕在线| 亚洲黄色成人网| 免费亚洲电影在线| gogo高清午夜人体在线| 九色综合日本| 欧美一区二区在线视频| 亚洲欧美日韩专区| а√天堂官网中文在线| 国内精品视频在线播放| 欧美午夜女人视频在线| 亚洲深深色噜噜狠狠爱网站| 国产裸舞福利在线视频合集| 国产精品一区二区在线观看| 欧美综合天天夜夜久久| 欧美视频一区| 国产精品久久麻豆| 日韩欧美一区二区三区久久婷婷| 欧美一区二区视频在线观看| 日本美女视频一区二区| 99色在线观看| 男人添女人下部高潮视频在观看| 国产一区二区三区久久精品 | 成年人免费在线视频| 91网址在线播放| 亚洲精品视频观看| 青青草国产成人a∨下载安卓| 香蕉视频在线观看网站| 91久久偷偷做嫩草影院| 88在线观看91蜜桃国自产| 美国欧美日韩国产在线播放| 成人看片毛片免费播放器| 精品少妇无遮挡毛片| 2024亚洲男人天堂| 日韩欧美亚洲国产一区| 免费在线亚洲| 国产综合色激情| 电影天堂最新网址| 亚洲在线一区二区| 欧美精品一区二区在线播放| 不卡一区二区三区四区| 91成人噜噜噜在线播放| 四虎在线免费看| 国产精品日韩欧美一区二区三区| 亚洲第一中文字幕在线观看| 久久久久免费观看| 五月久久久综合一区二区小说| 国产精品成久久久久三级| 亚洲一区三区电影在线观看| 日韩午夜精品电影| 国产 日韩 欧美大片| 国产ts一区| jyzzz在线观看视频| 欧美高清中文字幕| 热久久这里只有精品| 91精品免费观看| 91在线码无精品| 欧美电影一区| 亚洲一级少妇| 欧美黑人巨大| 日本一区二区免费高清视频| 69久久夜色精品国产7777| 91精品国产综合久久福利| 久久综合久久鬼色| 在线成人www免费观看视频| 亚洲精品伦理| 毛片在线播放网址| 日韩精品 欧美| 亚洲一区二区三区毛片| 在线中文字幕日韩| 在线观看日韩国产| 久久伊99综合婷婷久久伊| 亚洲大胆av|