国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

打破模態壁壘!DSE:以文檔截圖為核心的多模態檢索范式

人工智能
2024年EMNLP上,滑鐵盧大學團隊提出的文檔截圖嵌入(Document Screenshot Embedding, DSE) 范式,為這一痛點提供了顛覆性解決方案。該方法將任意文檔轉化為截圖作為統一輸入,無需任何內容提取預處理,直接通過視覺語言模型編碼為密集向量,完美保留文檔的文本、圖像、布局等全部信息。

在信息爆炸的時代,我們面臨的文檔形態日益多元——網頁、PDF、幻燈片等載體中,文本、圖像、圖表、表格等模態交織共存。傳統檢索系統卻始終受制于“分而治之”的邏輯:HTML需要解析器、PDF依賴OCR、圖像單獨處理,不僅預處理流程繁瑣易錯,還會不可逆地丟失文檔原始布局和視覺上下文信息。

2024年EMNLP上,滑鐵盧大學團隊提出的文檔截圖嵌入(Document Screenshot Embedding, DSE) 范式,為這一痛點提供了顛覆性解決方案。該方法將任意文檔轉化為截圖作為統一輸入,無需任何內容提取預處理,直接通過視覺語言模型編碼為密集向量,完美保留文檔的文本、圖像、布局等全部信息。

論文地址:https://aclanthology.org/2024.emnlp-main.373.pdf

01、研究背景:傳統檢索的兩大核心痛點

現有文檔檢索系統無論采用傳統 lexical 方法還是神經模型,都存在難以逾越的局限:

1. 預處理繁瑣且易出錯

不同格式文檔(HTML、PDF、幻燈片)需要定制化解析工具,如HTML的結構解析、PDF的OCR文本提取、表格的單獨處理。現實中,野生HTML結構復雜、幻燈片布局多樣,單一工具難以精準提取全部信息,且長期維護多模態處理流程成本極高。

2. 視覺上下文與布局信息丟失

文檔的視覺呈現本身承載著關鍵語義:標題的字號、圖表的位置、文本的排版,都在暗示信息的重要性層級。而傳統方法通過提取文本或拆分圖像單元進行處理,徹底破壞了這種視覺完整性,導致檢索時丟失核心上下文線索。

3. 多模態缺乏統一編碼范式

現有多模態檢索仍依賴“文本+圖像”的分離編碼,無法將文檔作為一個有機整體建模,面對混合模態文檔時檢索效果受限。

為此,DSE的核心思路應運而生:既然文檔的原始形態包含所有信息,何不直接將其作為檢索的最小單元? 截圖作為一種通用載體,能輕松覆蓋各類文檔格式,且完整保留視覺與布局信息。

02、核心貢獻:范式創新+數據集支撐

1. 提出DSE統一檢索范式

首次將文檔截圖作為多模態檢索的統一輸入格式,無需任何內容提取預處理,直接通過視覺語言模型(VLM)編碼為密集向量,實現“截圖輸入→向量編碼→相似度匹配”的端到端檢索流程。

2. 構建兩大大規模評估數據集

  • Wiki-SS:130萬張維基百科網頁截圖,覆蓋文本密集型文檔場景,用于驗證DSE對純文本信息的編碼能力。
  • SlideVQA-Open:5萬張幻燈片截圖,包含豐富的文本-圖像混合內容(圖表、復雜布局),用于評估混合模態檢索性能。

03、核心貢獻:范式創新+數據集支撐

現有數據集多為“文本+圖像”分離存儲,缺乏對文檔整體視覺結構的保留,且規模較小。為此,研究團隊構建了兩個針對性數據集:  

Wiki-SS:文本密集型截圖數據集

  • 構建方式:使用Selenium工具自動訪問英文維基百科頁面,以980×980像素窗口截圖,確保覆蓋核心內容。截圖時間跨度為2024年5月20-23日,保證數據時效性。
  • 存儲優化:完整維基百科截圖需2TB以上存儲空間,因此通過BM25篩選“有效樣本”:將每個NQ數據集的問題+答案作為查詢,檢索前50個相關文檔,最終保留1,267,874張截圖,確保包含正樣本和困難負樣本。
  • 文本對照集:基于2024年5月20日維基百科dump,使用mwparserfromhell工具提取前500詞(匹配截圖內容覆蓋范圍),構建文本檢索基線的對照語料。

SlideVQA-Open:混合模態幻燈片數據集

  • 來源改造:將原始SlideVQA(14.5k問答對、52k幻燈片)轉換為開放域檢索任務,需從5萬張幻燈片中檢索相關樣本。
  • 數據清洗:刪除無法下載的幻燈片和無證據幻燈片的問題,最終保留50,714張幻燈片和2,136個測試問題。
  • 文本對照集:使用pytesseract OCR提取幻燈片文本,構建OCR-based檢索基線。

04、DSE核心方法:截圖→編碼→檢索的全流程解析

DSE的核心是雙編碼器架構,分別處理文檔截圖和文本查詢,通過對比學習優化相似度匹配。  

任務定義

給定查詢Q和文檔截圖集合,檢索與Q最相關的k個文檔,相似度由余弦相似度衡量:  

模型架構詳解

(1)視覺編碼器:捕捉細粒度視覺信息

  • 基礎模型:采用clip-vit-large-patch14-336,將截圖縮放至336×336像素,劃分為24×24個patch(共576個),每個patch通過線性投影生成嵌入。
  • 優化方案:針對長文本截圖的細粒度捕捉問題,引入Phi-3-vision模型,將截圖裁剪為個子圖像(如4×4),每個子圖像獨立編碼為576個patch嵌入,同時保留全局截圖的576個patch嵌入,最終生成個patch嵌入,兼顧局部細節與全局信息。

(2)語言模型:融合視覺與文本語義

  • 輸入構造:將patch嵌入序列與提示詞拼接:<s><img> What is shown in this image?</s>,其中<img>占位符替換為patch嵌入序列。
  • 嵌入生成:使用語言模型最后一個隱藏層的</s>標記嵌入作為文檔截圖的最終向量表示:

    其中是視覺編碼器,是語言編碼器。

(3)查詢編碼:文本到向量的映射

文本查詢通過模板<s>{query}</s>輸入語言模型,同樣取</s>標記的嵌入作為查詢向量:

(4)對比學習訓練

損失函數:采用InfoNCE損失,優化正樣本文檔與查詢的相似度,抑制負樣本文檔(含困難負樣本和批次內負樣本):

05、實驗結果:全方位驗證DSE的優越性

實驗設置了兩大核心任務:文本密集型網頁檢索(Wiki-SS+NQ)和混合模態幻燈片檢索(SlideVQA-Open),對比基線包括BM25、DPR、E5、Phi-3(文本檢索)和CLIP(視覺檢索)。  

監督檢索效果:碾壓傳統方法

  • 文本密集型任務(NQ):DSE 比 BM25 高 17 個 Top-1 準確率,與 E5 性能相當,僅略低于 Phi-3(4 個百分點),證明其能有效編碼截圖中的文本信息。
  • 混合模態任務(SlideVQA):DSE 大幅領先所有文本基線(超 15 個 nDCG@10),比 CLIP 高 12.6 個 nDCG@10,凸顯視覺上下文保留的核心價值 ——OCR 方法丟失圖表、布局信息,而 DSE 完整捕捉混合模態語義。

零樣本泛化能力:跨數據集/跨任務的通用性

  • 跨數據集泛化(TriviaQA):DSE比BM25高3個Top-1準確率,遠優于DPR和CLIP,顯示對不同查詢分布的適應性。
  • 跨任務泛化(SlideVQA):DSE是唯一優于BM25的模型,比文本基線高14個nDCG@10,證明其無需任務特定訓練即可處理混合模態文檔。

塊序列長度的權衡:細粒度與效率的平衡

  • 效果提升:隨著裁剪數量從1×1增加到4×4,Top-10準確率從62.0%提升至73.7%,細粒度patch能捕捉更多文本細節(如單個字母、關鍵詞)。
  • 效率下降:編碼速度從12.2 doc/sec降至4.3 doc/sec,計算成本隨序列長度增長。
  • 最優選擇:2×2或3×3裁剪可平衡效果與效率,適用于大多數場景。

消融分析:為何DSE如此有效?

(1)注意力可視化:全局+局部信息雙捕捉

  • 全局注意力:聚焦標題、圖像、章節等宏觀結構。
  • 局部注意力:關注關鍵詞、單個字母等細粒度文本信息。
  • 證明DSE能同時捕捉文檔的結構特征和語義細節。

(2)視覺整合的必要性

對Phi-3(文本檢索)的50個失敗案例分析:

  • 22個案例因OCR文本提取錯誤導致失敗。
  • 28個案例因缺少視覺上下文(如圖表、布局)導致失敗。

證明傳統文本方法既受限于OCR準確性,又丟失視覺信息,而DSE通過截圖編碼完美解決這兩個問題。

(3)假陰性分析:捕捉主文本外的關鍵信息

傳統評估僅檢查主文本中的答案匹配,導致DSE的7/50個樣本被誤判為“無關”——實際答案存在于截圖的表格、圖像標題中。這表明DSE能利用文檔的完整視覺結構,挖掘傳統方法忽略的信息。

06、總結

DSE 通過 “截圖作為統一輸入” 的創新范式,徹底簡化了多模態檢索的預處理流程,同時完整保留文檔的視覺與布局信息,在文本密集型和混合模態任務中均展現出卓越性能。其單向量嵌入與雙編碼器架構,平衡了檢索效率與精度,為通用場景提供了簡潔高效的解決方案,尤其在網頁、幻燈片等常見文檔類型的檢索中表現突出。

2025 年 ICLR 上的 ColPali 工作,進一步提出多向量嵌入與延遲交互機制,通過捕捉文檔 patch 與查詢 token 的細粒度匹配,實現了檢索精度的再提升。這兩款模型雖技術路徑不同,但共同驗證了 “直接基于原始像素的多模態檢索”** 范式的可行性與優越性**,也反映出該方向仍有巨大挖掘空間 —— 從單向量到多向量、從通用場景到工業級適配,技術迭代正持續推動性能邊界。

但模態對齊仍是需要解決的關鍵問題。當前 DSE 雖能通過視覺語言模型融合文本與視覺信息,但在文本密集場景中,其性能仍略遜于專門的文本檢索模型(如 Phi-3),說明視覺模態向文本語義的精準映射仍有優化空間;而 ColPali 的多向量機制雖提升了匹配精度,卻也帶來了更高的存儲與計算成本,如何在模態對齊質量與系統效率之間找到更優平衡,仍是未來研究的核心方向。

此外,跨文檔類型的泛化能力、低質量截圖(模糊、低分辨率)的魯棒性、無監督 / 弱監督訓練策略的探索等,也是該領域亟待突破的課題。隨著視覺語言模型的持續演進,未來的多模態檢索系統有望實現 “精度與效率并重、通用與專用兼顧” 的目標,進一步拓展在 RAG、學術文獻檢索、企業文檔管理等實際場景的應用深度與廣度。

責任編輯:龐桂玉 來源: AI前沿洞察工坊
相關推薦

2025-12-03 08:21:33

2025-06-09 08:50:00

2025-05-28 09:17:00

端到端模型視覺

2025-03-19 09:30:00

2025-11-11 02:05:00

多模態ROCSOTA

2023-09-11 13:12:54

模型數據

2025-01-08 08:21:16

2024-05-21 07:54:30

視頻多模態語義檢索算法

2025-05-26 09:49:59

多模態智能體RAG

2024-12-12 00:25:09

2024-12-26 01:20:53

多模態大模型圖片

2025-11-17 08:49:00

2023-05-28 23:26:16

多模態機器學習大腦

2024-03-25 12:30:18

AI訓練開源

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-11-21 08:46:52

2025-02-26 13:00:00

2025-12-17 01:00:00

多模態檢索增強MuRAG大語言模型
點贊
收藏

51CTO技術棧公眾號

国产自产高清不卡| 久久国产综合| 欧美性高潮床叫视频| 国产精品系列在线观看| 黄色成人免费网| 成人av资源在线播放| 久久国产精品99久久人人澡| 外国精品视频在线观看| 成人a免费视频| 国产精品99久久久久久有的能看| 少妇一级淫免费播放| 中日韩美女免费视频网址在线观看| 欧美日韩在线播放三区四区| 蜜臀av一级做a爰片久久| 日本黄网站色大片免费观看| 欧美一区二区三区喷汁尤物| 中文字幕伦理免费在线视频 | 久久久精品国产99久久精品芒果 | 精品国产一区二区三区成人影院 | 亚洲欧洲精品在线| 亚洲美女精品一区| 黄在线观看免费网站ktv| 国产美女扒开尿口久久久| 99久久99久久久精品齐齐| 伊人影院蕉久影院在线播放| 成人国产在线视频| 亚洲欧洲精品一区二区三区| 狠狠久久综合| 亚洲高清在线观看一区| 欧美性大战久久久久久久蜜臀| 偷拍亚洲色图| 欧美少妇性生活视频| 亚洲午夜激情免费视频| 免费人成精品欧美精品| 欧美激情午夜| 国产一区在线观| 偷拍日韩校园综合在线| 神马久久影院| 天天综合天天操| 欧美激情一区二区三级高清视频| 成人午夜av电影| www.成人爱| 亚洲人成网站在线播放2019| 91精品国产综合久久香蕉的特点| 欧美mv日韩| 最新精品视频在线| 一道本一区二区三区| 50度灰在线| 亚洲人成网站在线播放2019| 亚洲日产国产精品| 一线天粉嫩在线播放| 亚洲91精品在线观看| 久久这里只有精品首页| 欧美性猛交xxxx黑人| 精品国产第一福利网站| 亚洲国产精品一区二区第一页| 91精品欧美综合在线观看最新| 99精品视频免费全部在线| 国产九九在线| 国产精品免费观看高清| 在线观看不卡视频| 一区免费在线| 日本欧美在线视频免费观看| 国产亚洲欧美一区二区| 欧美在线观看视频一区二区三区| 中文字幕一区二区三区在线视频 | 免费黄网站欧美| 182tv在线播放| 欧美日韩在线精品| 精品国产免费久久| 精品一区二区三区免费| 在线黄色的网站| 亚洲熟妇无码av在线播放| 最好看的2019年中文视频 | www.日本三级| 91精品国产乱码久久久久久蜜臀 | 超级碰碰久久| 亚洲不卡在线| 日韩av高清在线看片| 日韩中文字幕第一页| 久久久久久黄| 美女福利一区二区三区| 久久国产成人精品国产成人亚洲| 欧美另类极品videosbestfree| 中文字幕人成不卡一区| 日韩电影二区| 九义人在线观看完整免费版电视剧| 欧美重口乱码一区二区| 亚洲人成网站999久久久综合| 91婷婷韩国欧美一区二区| 特黄特色欧美大片| 国产在线观看免费网站| 精品三级av| 一区精品视频| 精品精品国产国产自在线| 最新国产精品久久精品| 911精品美国片911久久久| av免费网站在线观看| 性高湖久久久久久久久aaaaa| 国内精品久久久久久影视8| 亚洲国产另类av| 欧美a一区二区| 精品亚洲精品福利线在观看| 一区二区亚洲精品| 色网在线免费观看| 天天干天天爽天天射| 3d精品h动漫啪啪一区二区| 欧美理论片在线| www.欧美.com| 婷婷综合激情| 亚洲成人短视频| 一本免费视频| 亚洲日本欧美在线| 91福利视频网| 日韩一区二区三区视频在线观看 | 国产成人在线网站| 精品日韩欧美一区| 俄罗斯一级**毛片在线播放| 亚洲an天堂an在线观看| 免费一区二区三区| 欧美精品videofree1080p| 精品视频一区二区三区免费| a美女胸又www黄视频久久| 伊人色**天天综合婷婷| 国产69精品久久久久9999人| 夜色福利资源站www国产在线视频| 欧美少妇一级片| 国产精品一区二区三区免费视频| 亚洲毛茸茸少妇高潮呻吟| 香蕉加勒比综合久久| 国产一区在线视频| 久久精品凹凸全集| jizz一区二区三区| 调教视频在线观看| 国自产拍偷拍精品啪啪一区二区| 国产99视频精品免费视频36| 日韩在线免费高清视频| 欧美精品tushy高清| 亚洲欧美一区二区在线观看| 精品一区二区三区在线播放视频 | 美女福利一区二区| 91色在线观看| 色中色在线视频| 国产精品刘玥久久一区| 亚洲欧美国产一区二区三区| 亚洲制服丝袜av| 豆国产96在线|亚洲| 亚洲高清激情| 日韩深夜福利| 免费污视频在线一区| av在线免费网站| 中文字幕av在线| 在线观看亚洲| 日韩欧美激情电影| 亚洲精品88| 欧美a免费在线| 天天干夜夜干| 亚洲免费看av| 日韩欧美国产综合在线| 国内一区在线| 国产日韩欧美视频| 欧美激情区在线播放| 中文字幕视频一区二区在线有码| 免费高潮视频95在线观看网站| 1234区中文字幕在线观看| 国模冰冰炮一区二区| 麻豆一区一区三区四区| 久久天堂成人| 国产白丝精品91爽爽久久| 久久久青草青青国产亚洲免观| 91免费看`日韩一区二区| 久久先锋影音av| 亚洲国产精品视频| 亚洲精品乱码久久久久久日本蜜臀| av成人老司机| 男人的天堂成人在线| 亚洲伊人网站| 国产福利一区二区三区| 亚洲电影在线播放| 日韩成人高清在线| 成人在线视频电影| 九七影院理伦片| 久久人人视频| 99精品在线免费| 亚洲精品国精品久久99热| 成人在线国产精品| 69日本xxxxxxxxx49| 538在线视频| 麻豆亚洲精品| 欧美大片拔萝卜| 国产精品久久久久久久天堂第1集| 婷婷免费在线观看| 日本一区二区免费高清| 欧美性生交xxxxx久久久| 国产精品福利片| 资源视频在线播放免费| 成人影视亚洲图片在线| 欧美亚洲国产bt| 亚洲国产欧洲综合997久久| 1769国内精品视频在线播放|