打破模態壁壘!DSE:以文檔截圖為核心的多模態檢索范式

在信息爆炸的時代,我們面臨的文檔形態日益多元——網頁、PDF、幻燈片等載體中,文本、圖像、圖表、表格等模態交織共存。傳統檢索系統卻始終受制于“分而治之”的邏輯:HTML需要解析器、PDF依賴OCR、圖像單獨處理,不僅預處理流程繁瑣易錯,還會不可逆地丟失文檔原始布局和視覺上下文信息。
2024年EMNLP上,滑鐵盧大學團隊提出的文檔截圖嵌入(Document Screenshot Embedding, DSE) 范式,為這一痛點提供了顛覆性解決方案。該方法將任意文檔轉化為截圖作為統一輸入,無需任何內容提取預處理,直接通過視覺語言模型編碼為密集向量,完美保留文檔的文本、圖像、布局等全部信息。
論文地址:https://aclanthology.org/2024.emnlp-main.373.pdf01、研究背景:傳統檢索的兩大核心痛點
現有文檔檢索系統無論采用傳統 lexical 方法還是神經模型,都存在難以逾越的局限:
1. 預處理繁瑣且易出錯
不同格式文檔(HTML、PDF、幻燈片)需要定制化解析工具,如HTML的結構解析、PDF的OCR文本提取、表格的單獨處理。現實中,野生HTML結構復雜、幻燈片布局多樣,單一工具難以精準提取全部信息,且長期維護多模態處理流程成本極高。
2. 視覺上下文與布局信息丟失
文檔的視覺呈現本身承載著關鍵語義:標題的字號、圖表的位置、文本的排版,都在暗示信息的重要性層級。而傳統方法通過提取文本或拆分圖像單元進行處理,徹底破壞了這種視覺完整性,導致檢索時丟失核心上下文線索。
3. 多模態缺乏統一編碼范式
現有多模態檢索仍依賴“文本+圖像”的分離編碼,無法將文檔作為一個有機整體建模,面對混合模態文檔時檢索效果受限。
為此,DSE的核心思路應運而生:既然文檔的原始形態包含所有信息,何不直接將其作為檢索的最小單元? 截圖作為一種通用載體,能輕松覆蓋各類文檔格式,且完整保留視覺與布局信息。
02、核心貢獻:范式創新+數據集支撐
1. 提出DSE統一檢索范式
首次將文檔截圖作為多模態檢索的統一輸入格式,無需任何內容提取預處理,直接通過視覺語言模型(VLM)編碼為密集向量,實現“截圖輸入→向量編碼→相似度匹配”的端到端檢索流程。
2. 構建兩大大規模評估數據集
- Wiki-SS:130萬張維基百科網頁截圖,覆蓋文本密集型文檔場景,用于驗證DSE對純文本信息的編碼能力。
- SlideVQA-Open:5萬張幻燈片截圖,包含豐富的文本-圖像混合內容(圖表、復雜布局),用于評估混合模態檢索性能。

03、核心貢獻:范式創新+數據集支撐
現有數據集多為“文本+圖像”分離存儲,缺乏對文檔整體視覺結構的保留,且規模較小。為此,研究團隊構建了兩個針對性數據集:
Wiki-SS:文本密集型截圖數據集
- 構建方式:使用Selenium工具自動訪問英文維基百科頁面,以980×980像素窗口截圖,確保覆蓋核心內容。截圖時間跨度為2024年5月20-23日,保證數據時效性。
- 存儲優化:完整維基百科截圖需2TB以上存儲空間,因此通過BM25篩選“有效樣本”:將每個NQ數據集的問題+答案作為查詢,檢索前50個相關文檔,最終保留1,267,874張截圖,確保包含正樣本和困難負樣本。
- 文本對照集:基于2024年5月20日維基百科dump,使用mwparserfromhell工具提取前500詞(匹配截圖內容覆蓋范圍),構建文本檢索基線的對照語料。
SlideVQA-Open:混合模態幻燈片數據集
- 來源改造:將原始SlideVQA(14.5k問答對、52k幻燈片)轉換為開放域檢索任務,需從5萬張幻燈片中檢索相關樣本。
- 數據清洗:刪除無法下載的幻燈片和無證據幻燈片的問題,最終保留50,714張幻燈片和2,136個測試問題。
- 文本對照集:使用pytesseract OCR提取幻燈片文本,構建OCR-based檢索基線。
04、DSE核心方法:截圖→編碼→檢索的全流程解析
DSE的核心是雙編碼器架構,分別處理文檔截圖和文本查詢,通過對比學習優化相似度匹配。
任務定義
給定查詢Q和文檔截圖集合,檢索與Q最相關的k個文檔,相似度由余弦相似度衡量:

模型架構詳解

(1)視覺編碼器:捕捉細粒度視覺信息
- 基礎模型:采用clip-vit-large-patch14-336,將截圖縮放至336×336像素,劃分為24×24個patch(共576個),每個patch通過線性投影生成嵌入。
- 優化方案:針對長文本截圖的細粒度捕捉問題,引入Phi-3-vision模型,將截圖裁剪為
個子圖像(如4×4),每個子圖像獨立編碼為576個patch嵌入,同時保留全局截圖的576個patch嵌入,最終生成
個patch嵌入,兼顧局部細節與全局信息。
(2)語言模型:融合視覺與文本語義
- 輸入構造:將patch嵌入序列與提示詞拼接:
<s><img> What is shown in this image?</s>,其中<img>占位符替換為patch嵌入序列。 - 嵌入生成:使用語言模型最后一個隱藏層的
</s>標記嵌入作為文檔截圖的最終向量表示:
其中
是視覺編碼器,
是語言編碼器。
(3)查詢編碼:文本到向量的映射
文本查詢通過模板<s>{query}</s>輸入語言模型,同樣取</s>標記的嵌入作為查詢向量:

(4)對比學習訓練
損失函數:采用InfoNCE損失,優化正樣本文檔與查詢的相似度,抑制負樣本文檔(含困難負樣本和批次內負樣本):

05、實驗結果:全方位驗證DSE的優越性
實驗設置了兩大核心任務:文本密集型網頁檢索(Wiki-SS+NQ)和混合模態幻燈片檢索(SlideVQA-Open),對比基線包括BM25、DPR、E5、Phi-3(文本檢索)和CLIP(視覺檢索)。
監督檢索效果:碾壓傳統方法

- 文本密集型任務(NQ):DSE 比 BM25 高 17 個 Top-1 準確率,與 E5 性能相當,僅略低于 Phi-3(4 個百分點),證明其能有效編碼截圖中的文本信息。
- 混合模態任務(SlideVQA):DSE 大幅領先所有文本基線(超 15 個 nDCG@10),比 CLIP 高 12.6 個 nDCG@10,凸顯視覺上下文保留的核心價值 ——OCR 方法丟失圖表、布局信息,而 DSE 完整捕捉混合模態語義。
零樣本泛化能力:跨數據集/跨任務的通用性

- 跨數據集泛化(TriviaQA):DSE比BM25高3個Top-1準確率,遠優于DPR和CLIP,顯示對不同查詢分布的適應性。
- 跨任務泛化(SlideVQA):DSE是唯一優于BM25的模型,比文本基線高14個nDCG@10,證明其無需任務特定訓練即可處理混合模態文檔。
塊序列長度的權衡:細粒度與效率的平衡

- 效果提升:隨著裁剪數量從1×1增加到4×4,Top-10準確率從62.0%提升至73.7%,細粒度patch能捕捉更多文本細節(如單個字母、關鍵詞)。
- 效率下降:編碼速度從12.2 doc/sec降至4.3 doc/sec,計算成本隨序列長度增長。
- 最優選擇:2×2或3×3裁剪可平衡效果與效率,適用于大多數場景。
消融分析:為何DSE如此有效?
(1)注意力可視化:全局+局部信息雙捕捉

- 全局注意力:聚焦標題、圖像、章節等宏觀結構。
- 局部注意力:關注關鍵詞、單個字母等細粒度文本信息。
- 證明DSE能同時捕捉文檔的結構特征和語義細節。
(2)視覺整合的必要性
對Phi-3(文本檢索)的50個失敗案例分析:
- 22個案例因OCR文本提取錯誤導致失敗。
- 28個案例因缺少視覺上下文(如圖表、布局)導致失敗。
證明傳統文本方法既受限于OCR準確性,又丟失視覺信息,而DSE通過截圖編碼完美解決這兩個問題。
(3)假陰性分析:捕捉主文本外的關鍵信息
傳統評估僅檢查主文本中的答案匹配,導致DSE的7/50個樣本被誤判為“無關”——實際答案存在于截圖的表格、圖像標題中。這表明DSE能利用文檔的完整視覺結構,挖掘傳統方法忽略的信息。

06、總結
DSE 通過 “截圖作為統一輸入” 的創新范式,徹底簡化了多模態檢索的預處理流程,同時完整保留文檔的視覺與布局信息,在文本密集型和混合模態任務中均展現出卓越性能。其單向量嵌入與雙編碼器架構,平衡了檢索效率與精度,為通用場景提供了簡潔高效的解決方案,尤其在網頁、幻燈片等常見文檔類型的檢索中表現突出。
2025 年 ICLR 上的 ColPali 工作,進一步提出多向量嵌入與延遲交互機制,通過捕捉文檔 patch 與查詢 token 的細粒度匹配,實現了檢索精度的再提升。這兩款模型雖技術路徑不同,但共同驗證了 “直接基于原始像素的多模態檢索”** 范式的可行性與優越性**,也反映出該方向仍有巨大挖掘空間 —— 從單向量到多向量、從通用場景到工業級適配,技術迭代正持續推動性能邊界。
但模態對齊仍是需要解決的關鍵問題。當前 DSE 雖能通過視覺語言模型融合文本與視覺信息,但在文本密集場景中,其性能仍略遜于專門的文本檢索模型(如 Phi-3),說明視覺模態向文本語義的精準映射仍有優化空間;而 ColPali 的多向量機制雖提升了匹配精度,卻也帶來了更高的存儲與計算成本,如何在模態對齊質量與系統效率之間找到更優平衡,仍是未來研究的核心方向。
此外,跨文檔類型的泛化能力、低質量截圖(模糊、低分辨率)的魯棒性、無監督 / 弱監督訓練策略的探索等,也是該領域亟待突破的課題。隨著視覺語言模型的持續演進,未來的多模態檢索系統有望實現 “精度與效率并重、通用與專用兼顧” 的目標,進一步拓展在 RAG、學術文獻檢索、企業文檔管理等實際場景的應用深度與廣度。




































