打破模態壁壘！DSE：以文檔截圖為核心的多模態檢索范式

作者：Goldma 2025-12-23 09:08:53

2024年EMNLP上，滑鐵盧大學團隊提出的文檔截圖嵌入（Document Screenshot Embedding, DSE）范式，為這一痛點提供了顛覆性解決方案。該方法將任意文檔轉化為截圖作為統一輸入，無需任何內容提取預處理，直接通過視覺語言模型編碼為密集向量，完美保留文檔的文本、圖像、布局等全部信息。

在信息爆炸的時代，我們面臨的文檔形態日益多元——網頁、PDF、幻燈片等載體中，文本、圖像、圖表、表格等模態交織共存。傳統檢索系統卻始終受制于“分而治之”的邏輯：HTML需要解析器、PDF依賴OCR、圖像單獨處理，不僅預處理流程繁瑣易錯，還會不可逆地丟失文檔原始布局和視覺上下文信息。

2024年EMNLP上，滑鐵盧大學團隊提出的文檔截圖嵌入（Document Screenshot Embedding, DSE） 范式，為這一痛點提供了顛覆性解決方案。該方法將任意文檔轉化為截圖作為統一輸入，無需任何內容提取預處理，直接通過視覺語言模型編碼為密集向量，完美保留文檔的文本、圖像、布局等全部信息。

論文地址：https://aclanthology.org/2024.emnlp-main.373.pdf

01、研究背景：傳統檢索的兩大核心痛點

現有文檔檢索系統無論采用傳統 lexical 方法還是神經模型，都存在難以逾越的局限：

1. 預處理繁瑣且易出錯

不同格式文檔（HTML、PDF、幻燈片）需要定制化解析工具，如HTML的結構解析、PDF的OCR文本提取、表格的單獨處理。現實中，野生HTML結構復雜、幻燈片布局多樣，單一工具難以精準提取全部信息，且長期維護多模態處理流程成本極高。

2. 視覺上下文與布局信息丟失

文檔的視覺呈現本身承載著關鍵語義：標題的字號、圖表的位置、文本的排版，都在暗示信息的重要性層級。而傳統方法通過提取文本或拆分圖像單元進行處理，徹底破壞了這種視覺完整性，導致檢索時丟失核心上下文線索。

3. 多模態缺乏統一編碼范式

現有多模態檢索仍依賴“文本+圖像”的分離編碼，無法將文檔作為一個有機整體建模，面對混合模態文檔時檢索效果受限。

為此，DSE的核心思路應運而生：既然文檔的原始形態包含所有信息，何不直接將其作為檢索的最小單元？ 截圖作為一種通用載體，能輕松覆蓋各類文檔格式，且完整保留視覺與布局信息。

02、核心貢獻：范式創新+數據集支撐

1. 提出DSE統一檢索范式

首次將文檔截圖作為多模態檢索的統一輸入格式，無需任何內容提取預處理，直接通過視覺語言模型（VLM）編碼為密集向量，實現“截圖輸入→向量編碼→相似度匹配”的端到端檢索流程。

2. 構建兩大大規模評估數據集

Wiki-SS：130萬張維基百科網頁截圖，覆蓋文本密集型文檔場景，用于驗證DSE對純文本信息的編碼能力。
SlideVQA-Open：5萬張幻燈片截圖，包含豐富的文本-圖像混合內容（圖表、復雜布局），用于評估混合模態檢索性能。

03、核心貢獻：范式創新+數據集支撐

現有數據集多為“文本+圖像”分離存儲，缺乏對文檔整體視覺結構的保留，且規模較小。為此，研究團隊構建了兩個針對性數據集：

Wiki-SS：文本密集型截圖數據集

構建方式：使用Selenium工具自動訪問英文維基百科頁面，以980×980像素窗口截圖，確保覆蓋核心內容。截圖時間跨度為2024年5月20-23日，保證數據時效性。
存儲優化：完整維基百科截圖需2TB以上存儲空間，因此通過BM25篩選“有效樣本”：將每個NQ數據集的問題+答案作為查詢，檢索前50個相關文檔，最終保留1,267,874張截圖，確保包含正樣本和困難負樣本。
文本對照集：基于2024年5月20日維基百科dump，使用mwparserfromhell工具提取前500詞（匹配截圖內容覆蓋范圍），構建文本檢索基線的對照語料。

SlideVQA-Open：混合模態幻燈片數據集

來源改造：將原始SlideVQA（14.5k問答對、52k幻燈片）轉換為開放域檢索任務，需從5萬張幻燈片中檢索相關樣本。
數據清洗：刪除無法下載的幻燈片和無證據幻燈片的問題，最終保留50,714張幻燈片和2,136個測試問題。
文本對照集：使用pytesseract OCR提取幻燈片文本，構建OCR-based檢索基線。

04、DSE核心方法：截圖→編碼→檢索的全流程解析

DSE的核心是雙編碼器架構，分別處理文檔截圖和文本查詢，通過對比學習優化相似度匹配。

任務定義

給定查詢Q和文檔截圖集合，檢索與Q最相關的k個文檔，相似度由余弦相似度衡量：

模型架構詳解

（1）視覺編碼器：捕捉細粒度視覺信息

基礎模型：采用clip-vit-large-patch14-336，將截圖縮放至336×336像素，劃分為24×24個patch（共576個），每個patch通過線性投影生成嵌入。
優化方案：針對長文本截圖的細粒度捕捉問題，引入Phi-3-vision模型，將截圖裁剪為個子圖像（如4×4），每個子圖像獨立編碼為576個patch嵌入，同時保留全局截圖的576個patch嵌入，最終生成個patch嵌入，兼顧局部細節與全局信息。

（2）語言模型：融合視覺與文本語義

輸入構造：將patch嵌入序列與提示詞拼接：<s><img> What is shown in this image?</s>，其中<img>占位符替換為patch嵌入序列。
嵌入生成：使用語言模型最后一個隱藏層的</s>標記嵌入作為文檔截圖的最終向量表示：

其中是視覺編碼器，是語言編碼器。

（3）查詢編碼：文本到向量的映射

文本查詢通過模板<s>{query}</s>輸入語言模型，同樣取</s>標記的嵌入作為查詢向量：

（4）對比學習訓練

損失函數：采用InfoNCE損失，優化正樣本文檔與查詢的相似度，抑制負樣本文檔（含困難負樣本和批次內負樣本）：

05、實驗結果：全方位驗證DSE的優越性

實驗設置了兩大核心任務：文本密集型網頁檢索（Wiki-SS+NQ）和混合模態幻燈片檢索（SlideVQA-Open），對比基線包括BM25、DPR、E5、Phi-3（文本檢索）和CLIP（視覺檢索）。

監督檢索效果：碾壓傳統方法

文本密集型任務（NQ）：DSE 比 BM25 高 17 個 Top-1 準確率，與 E5 性能相當，僅略低于 Phi-3（4 個百分點），證明其能有效編碼截圖中的文本信息。
混合模態任務（SlideVQA）：DSE 大幅領先所有文本基線（超 15 個 nDCG@10），比 CLIP 高 12.6 個 nDCG@10，凸顯視覺上下文保留的核心價值 ——OCR 方法丟失圖表、布局信息，而 DSE 完整捕捉混合模態語義。

零樣本泛化能力：跨數據集/跨任務的通用性

跨數據集泛化（TriviaQA）：DSE比BM25高3個Top-1準確率，遠優于DPR和CLIP，顯示對不同查詢分布的適應性。
跨任務泛化（SlideVQA）：DSE是唯一優于BM25的模型，比文本基線高14個nDCG@10，證明其無需任務特定訓練即可處理混合模態文檔。

塊序列長度的權衡：細粒度與效率的平衡

效果提升：隨著裁剪數量從1×1增加到4×4，Top-10準確率從62.0%提升至73.7%，細粒度patch能捕捉更多文本細節（如單個字母、關鍵詞）。
效率下降：編碼速度從12.2 doc/sec降至4.3 doc/sec，計算成本隨序列長度增長。
最優選擇：2×2或3×3裁剪可平衡效果與效率，適用于大多數場景。

消融分析：為何DSE如此有效？

（1）注意力可視化：全局+局部信息雙捕捉

全局注意力：聚焦標題、圖像、章節等宏觀結構。
局部注意力：關注關鍵詞、單個字母等細粒度文本信息。
證明DSE能同時捕捉文檔的結構特征和語義細節。

（2）視覺整合的必要性

對Phi-3（文本檢索）的50個失敗案例分析：

22個案例因OCR文本提取錯誤導致失敗。
28個案例因缺少視覺上下文（如圖表、布局）導致失敗。

證明傳統文本方法既受限于OCR準確性，又丟失視覺信息，而DSE通過截圖編碼完美解決這兩個問題。

（3）假陰性分析：捕捉主文本外的關鍵信息

傳統評估僅檢查主文本中的答案匹配，導致DSE的7/50個樣本被誤判為“無關”——實際答案存在于截圖的表格、圖像標題中。這表明DSE能利用文檔的完整視覺結構，挖掘傳統方法忽略的信息。

06、總結

DSE 通過 “截圖作為統一輸入” 的創新范式，徹底簡化了多模態檢索的預處理流程，同時完整保留文檔的視覺與布局信息，在文本密集型和混合模態任務中均展現出卓越性能。其單向量嵌入與雙編碼器架構，平衡了檢索效率與精度，為通用場景提供了簡潔高效的解決方案，尤其在網頁、幻燈片等常見文檔類型的檢索中表現突出。

2025 年 ICLR 上的 ColPali 工作，進一步提出多向量嵌入與延遲交互機制，通過捕捉文檔 patch 與查詢 token 的細粒度匹配，實現了檢索精度的再提升。這兩款模型雖技術路徑不同，但共同驗證了 “直接基于原始像素的多模態檢索”** 范式的可行性與優越性**，也反映出該方向仍有巨大挖掘空間 —— 從單向量到多向量、從通用場景到工業級適配，技術迭代正持續推動性能邊界。

但模態對齊仍是需要解決的關鍵問題。當前 DSE 雖能通過視覺語言模型融合文本與視覺信息，但在文本密集場景中，其性能仍略遜于專門的文本檢索模型（如 Phi-3），說明視覺模態向文本語義的精準映射仍有優化空間；而 ColPali 的多向量機制雖提升了匹配精度，卻也帶來了更高的存儲與計算成本，如何在模態對齊質量與系統效率之間找到更優平衡，仍是未來研究的核心方向。

此外，跨文檔類型的泛化能力、低質量截圖（模糊、低分辨率）的魯棒性、無監督 / 弱監督訓練策略的探索等，也是該領域亟待突破的課題。隨著視覺語言模型的持續演進，未來的多模態檢索系統有望實現 “精度與效率并重、通用與專用兼顧” 的目標，進一步拓展在 RAG、學術文獻檢索、企業文檔管理等實際場景的應用深度與廣度。

責任編輯：龐桂玉來源： AI前沿洞察工坊

多模態檢索范式文檔截圖嵌入 DSE

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看