国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ICCV 2025 | 清華&騰訊混元X發(fā)現(xiàn)「視覺頭」機制:僅5%注意力頭負責多模態(tài)視覺理解

人工智能 新聞
在本文中,我們聚焦于注意力頭的視覺偏好,提出了一種基于 OCR 任務、無需額外訓練的方法,系統(tǒng)量化每個注意力頭對視覺內(nèi)容的關注程度。

本文的主要作者來自清華大學智能視覺實驗室(i-Vision Group)、騰訊混元 X 組。本文的共同第一作者為清華大學自動化系本科生王嘉輝和博士生劉祖炎,本文的通訊作者為清華大學自動化系魯繼文教授。

多模態(tài)大模型通常是在大型預訓練語言模型(LLM)的基礎上擴展而來。盡管原始的 LLM 并不具備視覺理解能力,但經(jīng)過多模態(tài)訓練后,這些模型卻能在各類視覺相關任務中展現(xiàn)出強大的表現(xiàn)。

這引發(fā)了我們的思考:在多模態(tài)訓練過程中,LLM 基座的哪些內(nèi)部結(jié)構(gòu),尤其是哪些多頭注意力單元,真正承擔了對視覺內(nèi)容的理解?這些注意力頭是否存在可識別、可量化的視覺偏好或?qū)I(yè)化功能?如果能夠識別出這些「視覺頭」,不僅有助于揭示多模態(tài)大模型內(nèi)部的「黑箱」機制,也為模型結(jié)構(gòu)優(yōu)化和資源分配提供了理論依據(jù)。

在本文中,我們聚焦于注意力頭的視覺偏好,提出了一種基于 OCR 任務、無需額外訓練的方法,系統(tǒng)量化每個注意力頭對視覺內(nèi)容的關注程度。我們發(fā)現(xiàn),只有不到 5% 的注意力頭(我們稱之為視覺頭,Visual Head)在視覺理解任務中起到主導作用,這些頭能夠有效聚焦并提取圖片中的關鍵信息,而絕大多數(shù)注意力頭則主要關注文本信息或其他輔助特征。這一「視覺頭稀疏性」現(xiàn)象表明,模型的視覺理解能力高度依賴于極少數(shù)專門化的注意力頭。

圖片

  • 論文標題:SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
  • 論文:https://arxiv.org/abs/2506.05344
  • 代碼:https://github.com/CR400AF-A/SparseMM
  • 項目地址:https://cr400af-a.github.io/SparseMM/

基于這一發(fā)現(xiàn),我們進一步提出了 SparseMM:一種利用視覺頭稀疏性進行 KV-Cache 優(yōu)化的策略。考慮到多模態(tài)大模型輸入的視覺 token 遠多于文本 token,帶來了巨大的顯存壓力,我們對 KV-Cache 資源進行差異化分配。

具體地,SparseMM 將總緩存預算劃分為三部分:一部分保障所有頭的基本局部緩存,一部分按固定比例均勻分配,其余則根據(jù)視覺頭得分優(yōu)先分配給視覺頭,從而在效率與性能之間取得更優(yōu)平衡。

通過在 DocVQA、OCRBench、TextVQA、ChartQA、MMBench、GQA 等主流多模態(tài)基準上的廣泛評測,SparseMM 相較于 SnapKV、AdaKV 等方法取得了更好的性能和效率的平衡。效率評估測試中實現(xiàn)了最高 1.87× 的解碼階段加速并降低了 52% 的峰值內(nèi)存。此外,在極端緩存預算下,性能下降幅度更小,充分驗證了基于視覺頭的 KV-Cache 分配策略在效率-性能權(quán)衡上的優(yōu)越性。

介紹

多模態(tài)大模型通過引入視覺編碼器模塊,使得原本不具備視覺能力的 LLM 能夠在圖文問答、文檔理解等多種場景下表現(xiàn)出色。但是模型內(nèi)部究竟是如何實現(xiàn)這一跨模態(tài)遷移的,仍然是一個「黑箱」問題。我們認為,在多模態(tài)大模型訓練的過程中,部分注意力頭逐漸特化為了「視覺頭」,專門負責視覺信息的理解與交互。

在本文中,我們提出了一種基于 OCR 任務量化并識別視覺頭(Visual Head)的方法,并基于此提出了 SparseMM——一種新穎的多模態(tài)模型推理加速方法。通過對視覺頭的深入分析,我們發(fā)現(xiàn)視覺頭在多模態(tài)大模型中占比很小。

也就是說,只有一小部分注意力頭真正承擔了對視覺內(nèi)容進行深度理解并將其有效融入語言表征的核心任務,而大多數(shù)注意力頭更多地關注語言信息,或僅局限于局部上下文建模,對圖像內(nèi)容的理解作用有限。

基于此,我們采用了一種注意力頭級別的緩存分配機制,對更關注視覺內(nèi)容的注意力頭分配更多的緩存預算,以最大程度的保留視覺信息;對于不關注視覺內(nèi)容的注意力頭則分配較少的緩存預算,使它們關注最近鄰的信息即可,從而實現(xiàn)了性能和速度的更優(yōu)均衡。

圖片

圖 1:SparseMM 整體概覽

方法概覽

我們的方法主要分為兩部分:首先通過 OCR 任務定位視覺頭,然后為不同的注意力頭分配不同的緩存預算。

基于 OCR 的視覺頭定位方法

圖片

圖 2:SparseMM 基于 OCR 任務定位視覺頭的方法示意圖

為了深入探究多模態(tài)大模型在處理視覺內(nèi)容時的注意力機制,我們提出了一種基于 OCR 任務的分析方法,并據(jù)此定義了「視覺得分」,用于量化模型在視覺內(nèi)容上的注意力表現(xiàn)。基于視覺得分,本文能夠有效定位并分析模型內(nèi)部對視覺內(nèi)容高度敏感的注意力頭。

具體而言,在給定一個 OCR 任務的圖片輸入時,多模態(tài)大模型需要根據(jù)圖片內(nèi)容生成并輸出圖片中的文字信息。對于每一個由模型輸出的 token圖片,首先利用 OCR 任務的標注信息,即「(text, bbox)」對,明確該字符在圖像中的空間位置。

通過這一標注,可以將每個字符與其在圖片中的具體區(qū)域一一對應。接下來,按照多模態(tài)大模型對輸入圖片的分塊或 patch 劃分方式,進一步確定每個字符對應的視覺區(qū)域所映射到的視覺 token,并精確定位這些視覺令牌在整個輸入序列中的具體位置。

在此基礎上,我們對多模態(tài)大模型內(nèi)部所有注意力頭進行遍歷。對于任意一個注意力頭,我們分析其注意力得分矩陣。考慮當前字符 token圖片 對前序所有輸入 token 的注意力得分,若得分最高的 token 恰好屬于該字符在圖像中對應區(qū)域的視覺 token,則認為該注意力頭在該位置成功「命中」了對應的視覺內(nèi)容。每當發(fā)生一次「命中」,便為該注意力頭累計一次視覺得分。通過統(tǒng)計和歸一化所有字符令牌的命中情況,最終可以量化每個注意力頭對視覺內(nèi)容的關注程度,從而揭示模型在視覺信息處理過程中的內(nèi)部機制。

圖片

基于視覺頭的 KV-Cache 壓縮策略

在完成視覺頭的定位之后,我們進一步提出了一種基于視覺頭的 KV-Cache 分配與壓縮策略。傳統(tǒng)的 KV-Cache 機制為所有注意力頭和所有位置的 token 分配等量的緩存空間,這種方式雖然簡單,但在處理高分辨率圖像時顯得極為低效:大量不關注視覺內(nèi)容的注意力頭被迫緩存完整視覺 token,造成了顯著的資源浪費。

為了解決這一問題,SparseMM 根據(jù)視覺得分設計了一個三部分的緩存分配機制:

  • Local Window Cache: 為所有注意力頭分配固定窗口大小的緩存,只保留最近的若干個 token,確保基本的局部上下文建模能力;
  • Uniform-Based Cache: 在所有注意力頭之間均勻分配一部分緩存預算,用于保底防止頭部信息過度丟失;
  • Score-Preferred Cache: 將剩余的大部分緩存資源按照視覺頭在前一階段中的視覺得分按比例分配,使得關鍵的視覺頭能夠盡可能保留更多的歷史視覺 token,從而提升模型對圖像語義的保持能力。

這種差異化的緩存壓縮策略在不顯著犧牲模型性能的情況下,顯著減少了整體 KV-Cache 的內(nèi)存使用。尤其在視覺 token 占比較高的輸入場景中,SparseMM 能夠更合理地分配資源,把計算和存儲集中在真正重要的視覺內(nèi)容上。

圖片

圖 3:SparseMM 基于視覺頭的緩存壓縮方法

實驗結(jié)果

在 OCR-rich 的多模態(tài)數(shù)據(jù)集上的結(jié)果

在 OCR-rich 的數(shù)據(jù)集上(如 DocVQA、OCRBench 和 TextVQA),SparseMM 展現(xiàn)出顯著的性能優(yōu)勢,充分驗證了其視覺頭識別策略的有效性。例如在 DocVQA 中,當鍵值緩存預算僅為輸入長度的 10% 左右時,LLaVA-NeXT-Vicuna-7B 與 Qwen2-VL-7B-Instruct 等模型仍能保持與全緩存配置幾乎一致的性能,而現(xiàn)有方法則普遍出現(xiàn)明顯精度下降,差距在低預算下進一步擴大,突出體現(xiàn)了視覺頭選擇的準確性和關鍵性。TextVQA 中的實驗同樣驗證了 SparseMM 的優(yōu)勢,多個模型在低至 5% 至 10% 緩存預算的條件下依然保持優(yōu)異性能,顯著優(yōu)于 AdaKV、SnapKV 等方法。這些結(jié)果表明,SparseMM 尤其適用于文字密集、圖文關聯(lián)緊密的視覺任務,在處理高分辨率輸入與稀疏文本分布場景中具備顯著的推理效率與性能保持能力。

圖片

通用多模態(tài)任務上的分析

盡管本文的視覺頭識別方法基于 OCR 任務構(gòu)建,但是為了進一步驗證其在更廣泛視覺場景中的適用性與泛化能力,我們在多個通用視覺任務基準(如 MMBench、GQA 和 VQAv2)上對該方法進行了系統(tǒng)性評估。

實驗結(jié)果顯示,本文方法在通用視覺任務中依然表現(xiàn)出極強的魯棒性與泛化能力。即便在非常受限的緩存預算的條件下,Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能維持與全緩存模型幾乎一致的性能;在 GQA 和 VQAv2 等具備復雜視覺推理能力要求的任務上,性能下降幅度也始終控制在 1% 以內(nèi),顯著優(yōu)于現(xiàn)有壓縮方法。這些結(jié)果表明,盡管視覺頭的識別基于 OCR 場景完成,其關注的視覺區(qū)域和注意力機制卻具有高度的通用性,能夠在各類視覺理解任務中穩(wěn)定發(fā)揮作用,為通用多模態(tài)模型的推理加速與緩存優(yōu)化提供了一種高效、可靠且可推廣的解決方案。

圖片

推理速度評估

本文在不同輸入長度(2K 至 32K)場景下評估了 SparseMM 的計算效率,結(jié)果顯示該方法在提升推理速度和降低顯存占用方面均取得顯著提升。在 32K 輸入下,LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分別提升至 1.87× 和 1.60×,而峰值顯存占用分別減少約 15GB 和 2GB,表現(xiàn)出良好的擴展性與適應性。這充分說明 SparseMM 在高分辨率圖像或長上下文任務中,能夠有效降低推理開銷,提升多模態(tài)大模型的部署效率與實用性。

可視化視覺頭

我們可視化了 LLaVA-NeXT-Vicuna-7B 中識別到的一些視覺頭和非視覺頭,可以看出視覺頭能準確的定位到圖中的物體或文字,而非視覺頭往往不關注圖像信息或者關注到錯誤的區(qū)域,這直觀地體現(xiàn)了視覺頭和非視覺頭的差異性。

圖片

總結(jié)

我們提出了 SparseMM,這是一種基于視覺頭的 KV-Cache 緩存壓縮方法。我們通過在 OCR 任務中精確識別出對視覺信息最敏感的注意力頭,并據(jù)此設計差異化的緩存分配策略,在保證模型性能的同時顯著降低了推理階段的計算和內(nèi)存開銷。

實驗結(jié)果表明,SparseMM 在多個視覺語言任務中均展現(xiàn)出卓越的準確性保持能力、優(yōu)異的計算效率以及強大的泛化性,特別是在高分辨率圖像和長上下文輸入場景下具有顯著優(yōu)勢。SparseMM 為多模態(tài)大模型的高效推理與實際部署提供了新的解決思路,我們也希望這項工作能啟發(fā)未來更多對多模態(tài)大模型推理加速的研究。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-11 01:45:00

MANO多模態(tài)Swin

2022-03-25 11:29:04

視覺算法美團

2024-12-05 16:19:14

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡算法

2025-10-20 08:49:00

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡CNN機器學習

2017-07-07 15:46:38

循環(huán)神經(jīng)網(wǎng)絡視覺注意力模擬

2025-05-28 09:17:00

端到端模型視覺

2025-07-04 08:43:00

2024-09-19 10:07:41

2025-08-27 09:08:00

AI視覺模型

2022-02-21 09:25:57

VR研究Nature

2023-10-07 07:21:42

注意力模型算法

2024-11-13 09:39:13

2025-04-26 16:44:45

2024-06-03 10:56:53

2025-01-15 13:40:00

2025-09-11 13:23:28

多模態(tài)大模型文檔問答

2025-06-11 09:06:00

視覺生成AI
點贊
收藏

51CTO技術(shù)棧公眾號

日本一区二区三区视频视频| 亚洲欧美国产毛片在线| 国产99久久精品一区二区永久免费 | 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 日韩高清av一区二区三区| 免费a在线观看| 中文字幕一区二区三区在线不卡| 日韩精品一区二区在线视频 | 91久久精品国产91性色| 久久成人福利| 欧美极品在线视频| 国产一区二区三区| 久久躁日日躁aaaaxxxx| 国产精品天堂蜜av在线播放| 国产视频亚洲精品| 91制片在线观看| 欧美精品一区二区三区很污很色的| 国产福利在线| 欧美日韩国产在线观看| 日韩黄色影院| 欧美精品高清视频| 亚洲麻豆精品| 欧美日韩国产另类一区| a视频网址在线观看| 日本久久一区二区三区| 北条麻妃在线| 欧美日韩精品久久久| 在线免费观看污| 欧美精品一区二区三| 亚洲精品一区| 日韩最新在线视频| 国产精品久久久久久久久久辛辛| 欧美刺激性大交免费视频| 4438全国亚洲精品观看视频| 欧美人妖在线观看| 不卡高清视频专区| 日本免费观看网站| 亚洲精品第1页| 男女污视频在线观看| 欧美日本在线观看| 免费毛片b在线观看| 日韩在线视频免费观看| 99视频免费播放| 欧美日韩国产综合视频在线观看| 91综合国产| 亚洲天堂a在线| 亚洲男人天堂| 欧美一二三区精品| 日韩成人动漫| 欧美激情精品久久久久久免费印度 | 国产**成人网毛片九色 | 国产在线日韩欧美| 亚洲视频在线观看一区二区三区| 亚洲精品菠萝久久久久久久| 天堂中文а√在线| 最好看的2019年中文视频| 亚洲va久久| 久久综合九色99| 99精品久久只有精品| 日本h片在线看| 亚洲成人久久网| 97在线播放视频| 国产精品三级视频| 久草福利资源在线视频| 欧美日本在线观看| 国产日韩精品在线观看| 国产日韩欧美精品电影三级在线| 电影在线一区| 欧美一卡2卡三卡4卡5免费| jizzjizz亚洲中国少妇| www激情久久| 北条麻妃在线一区| 亚洲成人自拍网| 国产一级网站视频在线| 欧美一级二级三级蜜桃| aa国产成人| 久久天天躁狠狠躁夜夜av| 国产亚洲亚洲国产一二区| 国产成人精品免高潮在线观看 | av在线不卡网| 97公开免费视频| 欧美日韩中文字幕| 1234区中文字幕在线观看| 美女av一区二区| 久久精品日产第一区二区| 亚洲欧美激情网| 亚洲成av人影院在线观看| 欧美猛交ⅹxxx乱大交视频| 欧美日韩伦理在线免费| 欧美三级网色| 911精品产国品一二三产区| 黄在线免费观看| 中文字幕在线免费不卡| 欧洲美女7788成人免费视频| 性欧美18~19sex高清播放| 日韩午夜中文字幕| 玖玖精品一区| 国产传媒日韩欧美成人| 欧美 国产 精品| 亚洲精品视频在线观看免费| 欧美亚洲在线日韩| 在线国产一级| 久久99精品久久久久久琪琪| 日本欧美大码aⅴ在线播放| 亚洲精品666| 欧美黑人巨大精品一区二区| 99天天综合性| 成人福利电影| 日韩中文不卡| 欧美精品18videosex性欧美| 国产欧美一区二区精品忘忧草| av白虎一区| 日本黄大片在线观看| 国产伦精品一区二区三区四区免费| 成人黄色激情网| 色播久久人人爽人人爽人人片视av| 亚洲制服丝袜av| 国产精品视频3p| 国产精品扒开做爽爽爽的视频| 国产九色porn网址| 国产精品一久久香蕉国产线看观看| 日本欧美在线观看| 欧美日本成人| 欧美日韩在线大尺度| 天天综合网站| а√天堂在线官网| 天堂网www中文在线| 男女激烈动态图| 国产一区二区三区精品久久久| 日韩精品欧美国产精品忘忧草| 日韩欧美国产激情| 亚洲国产一区二区三区在线播放| 免费看日本毛片| 97精品视频在线播放| 疯狂做受xxxx欧美肥白少妇| 久久久人人人| 日韩中出av| av免费观看一区二区| 热99在线观看| 日韩 欧美 自拍| 日本一区视频在线| 欧美日韩喷水| 中文字幕有码av| 精品国偷自产一区二区三区| 国产精品久久久av久久久| 久久久国产精品视频| 亚洲久久在线| 欧美精品国产| 日韩精品诱惑一区?区三区| 97碰碰碰免费色视频| 欧美日韩成人在线| 51精品久久久久久久蜜臀| 午夜精品福利在线观看| 亚洲理论在线a中文字幕| 欧美肥妇毛茸茸| 日韩国产欧美精品一区二区三区| xx视频.9999.com| 亚洲视频你懂的| 午夜在线电影亚洲一区| 欧美性高潮在线| 亚洲成人a**站| 日本国产精品视频| 日本在线观看一区二区| 国产精品av免费| 久久国产主播精品| 国产成人涩涩涩视频在线观看| 久久国产精品免费视频| 久久伊人精品天天| 久久福利视频网| 国产精品久久久久久久av电影| 日本精品一区二区三区在线播放视频| 久久久久久久激情视频| 国产精品27p| 91制片厂免费观看| 亚洲国产日韩欧美在线观看| 神马精品久久| 中文字幕乱码在线播放| 亚洲伊人春色| 不卡在线视频中文字幕| 色拍拍在线精品视频8848| 精品免费在线视频| 欧美成人免费全部观看天天性色| 国产精品96久久久久久又黄又硬 | 性欧美18xxxhd| 看av免费毛片手机播放| 久久综合偷偷噜噜噜色| 欧美国产一区二区在线| 久久亚洲国产精品| 欧美怡红院视频| 91在线一区二区| 亚洲国产三级| 91嫩草国产线观看亚洲一区二区| 在线国产日本| 日b视频免费观看| 成人疯狂猛交xxx| 深夜精品寂寞黄网站在线观看| 岛国av一区二区三区| 99re热这里只有精品视频| 国产欧美不卡| 国产精品午夜av|