微軟亞院提出 Rewrite-Retrieve-Read 框架：以 query 重寫為起點，從源頭優化檢索質量

作者：Goldma 2025-12-02 06:00:00

微軟亞院與上海交通大學聯合團隊在2023 EMNLP提出的Rewrite-Retrieve-Read框架。通過在傳統RAG流程前增加query重寫步驟，成功填補了輸入文本與檢索需求的鴻溝，為黑箱大模型的檢索增強提供了全新思路。

在檢索增強生成（RAG）成為大模型事實性輸出標配方案的今天，大多數研究都在死磕檢索器優化或閱讀器調優，卻忽略了一個核心起點——檢索查詢本身。當原始輸入與真實檢索需求存在差距時，再強的檢索器也難召回有效信息。

上一篇工作分享了2023 ACL的優化方案 HyDE，這篇工作來繼續分享經典query優化策略，微軟亞院與上海交通大學聯合團隊在2023 EMNLP提出的Rewrite-Retrieve-Read框架。通過在傳統RAG流程前增加query重寫步驟，成功填補了輸入文本與檢索需求的鴻溝，為黑箱大模型的檢索增強提供了全新思路。

論文地址：https://arxiv.org/pdf/2305.14283
項目地址：https://github.com/xbmxb/RAG-query-rewriting

01、為什么需要給query“整容”？

大語言模型雖強，但存在兩大致命問題：幻覺生成和知識時效性滯后。檢索增強（RAG）通過引入外部知識完美緩解了這兩個問題，成為知識密集型任務的標準解決方案。

但傳統的“檢索-然后-閱讀”（Retrieve-then-Read）框架存在明顯短板：

檢索查詢要么直接使用原始輸入，要么由黑箱模型固定生成，完全忽略了輸入文本與真實檢索需求的差距
復雜問題（如多跳問答）直接作為查詢時，不僅無法補充有效知識，還會引入冗余噪聲
黑箱大模型無法直接調優，現有方法要么優化檢索器，要么設計復雜交互流程，成本高且效果有限

舉個直觀例子：問“Lady Mary-Gaye Curzon最小的女兒與Douglas Smith共同出演的2017年電影是什么？”，直接用這個長句檢索會讓搜索引擎抓不住重點；但如果重寫為“2017年電影 Lady Mary-Gaye Curzon最小的女兒 Douglas Smith”，檢索效率會大幅提升。

這正是該研究的核心洞察：優化檢索的起點（query），比優化后續環節更高效、更省資源。

02、核心框架：Rewrite-Retrieve-Read三步法

研究提出的全新框架在傳統RAG流程前增加了query重寫步驟，形成“重寫-檢索-閱讀”的閉環，整體流程清晰明了：

Query Rewrite（查詢重寫）：精準匹配檢索需求

基于原始輸入 x （如開放域問答的問題、多項選擇的“問題+選項”），生成更貼合檢索需求的查詢，核心是提煉關鍵信息、優化表達邏輯，避免原始輸入冗余或歧義導致的檢索偏差。

基礎方案（無訓練）：直接用大語言模型（如ChatGPT）作為凍結重寫器，通過“指令+1-3個固定演示樣例+原始輸入”的少樣本提示引導生成查詢，輸出可是0個（無需檢索）、1個或多個搜索查詢，適配不同任務格式（如HotPotQA需輸出簡短短語查詢，MMLU需針對“問題+選項”優化查詢）。
進階方案（可訓練）：用預訓練的T5-large（7.7億參數）作為可訓練重寫器，通過后續雙階段訓練，讓重寫器更適配下游凍結的檢索器與閱讀器。

Retrieve（檢索）：高效獲取高質量上下文

用重寫后的查詢調用搜索引擎（實驗選用必應），無需構建私有文檔索引，可覆蓋實時、廣泛的知識，緩解固定數據庫的“時間錯位”問題；同時通過兩種方式處理檢索結果，平衡效率與質量：

片段拼接：直接提取必應篩選的網頁相關片段并拼接，類似瀏覽器常規搜索的結果預覽，快速獲取核心信息。
URL解析+BM25篩選：解析網頁完整文本后，用BM25算法計算段落與查詢的相關性，保留高分段落，減少冗余信息對后續閱讀的干擾。

Read（閱讀）：結合外部知識生成可靠輸出

將原始輸入 x 與檢索到的上下文文檔 doc 結合，輸入凍結的大語言模型閱讀器，通過少樣本提示完成閱讀理解與結果預測，最終輸出（如問答的答案、選擇題的選項）。

閱讀器選擇：實驗選用ChatGPT（gpt-3.5-turbo）和Vicuna-13B，均以黑箱凍結狀態運行，避免大模型參數調優的高成本。
輸入格式：無檢索增強時僅輸入 x，有檢索增強時輸入“（重寫查詢）”，確保外部知識與任務需求精準結合。

可訓練重寫器的雙階段訓練：讓小模型精準適配流程

完全依賴凍結的大語言模型存在“依賴人工提示、可能生成非最優查詢”的問題，為了更好地與凍結模塊（檢索器和閱讀器）對齊，研究設計“預熱訓練+強化學習”雙階段，用T5-large小模型承擔重寫任務，既控成本又提性能：

第一階段：預熱訓練（Warm-up）——用高質量偽數據打基礎

核心是讓T5-large先掌握“如何生成能讓閱讀器正確回答的查詢”，避免直接訓練的盲目性：

構建偽數據集：用大語言模型（如ChatGPT）對訓練集中的原始輸入 x 進行重寫，生成大量候選查詢；然后篩選出“用該查詢檢索后，閱讀器能輸出正確答案（）”的樣本，組成預熱數據集：
微調目標：以“讓T5-large生成的查詢盡可能貼近偽數據中的優質查詢”為目標，用標準的對數似然損失訓練，讓模型初步掌握重寫邏輯。

局限性：此時重寫器性能依賴偽數據質量（若人工提示不佳，生成的查詢可能非最優）和模型規模（T5-large參數較小），需后續強化學習進一步優化。

第二階段：強化學習（RL）——對齊檢索器與閱讀器需求

核心是讓重寫器“根據最終任務效果調整查詢生成策略”，以閱讀器的反饋為導向優化，采用PPO（近端策略優化）算法確保訓練穩定：

任務建模：把重寫器的查詢生成過程看作“馬爾可夫決策過程”：

狀態（s_t）：當前已生成的查詢片段+原始輸入；
動作（a_t）：生成下一個查詢token；
獎勵（R）：根據“查詢檢索效果+閱讀器回答效果”綜合計算，確保獎勵與最終任務目標一致——比如包含“閱讀器回答的精確匹配度（EM）、F1分數”（衡量回答質量）、“檢索命中率”（衡量檢索到的文檔是否含正確答案），同時加入KL散度正則項，防止重寫器生成的查詢與初始預熱模型偏差過大，避免訓練失控。

訓練邏輯：先固定一個“基準策略”（預熱后的重寫器）用于生成查詢樣本；再用PPO算法更新模型參數，每次更新都讓新策略的查詢生成效果更優（獎勵更高），同時限制新策略與基準策略的差異，保證訓練過程平穩，最終讓重寫器生成的查詢既能精準檢索到有效文檔，又能幫助閱讀器輸出正確答案。

03、實驗驗證：多數據集持續提效

實驗在知識密集型任務的兩大核心場景（開放域問答、多項選擇問答）展開，通過與傳統RAG方案的對比，不僅用數據驗證了“重寫-檢索-閱讀”框架的性能優勢，更揭示了query重寫在算法優化中的關鍵作用——從“檢索源頭”解決信息匹配問題，比后續環節調優更高效。

關鍵實驗結果：性能提升背后的算法邏輯

實驗設置了“直接推理（無檢索）”“傳統Retrieve-then-Read”“LLM凍結重寫器”“可訓練重寫器”四組對比，結果顯示：query重寫不僅能持續提效，更能解決傳統RAG的固有痛點，其價值體現在三個核心維度：

1. 開放域問答：破解復雜問題檢索難題，挽回傳統RAG劣勢

在HotPotQA（多跳推理）、AmbigNQ（消歧問答）、PopQA（長尾知識）三個數據集上，兩種重寫方案均實現性能突破，尤其針對傳統RAG的短板形成有效補充：

多跳問題痛點解決：HotPotQA中，傳統RAG直接用多跳長句檢索（如“XX的女兒與XX共同出演的2017電影”），因關鍵詞分散、語義模糊引入大量噪聲，導致EM分數（30.47%）低于無檢索的直接推理（32.36%）；而加入query重寫后，凍結重寫器將EM提升至32.80%，可訓練重寫器進一步提升至34.38%（F1達45.97%）——這證明重寫能將復雜問題拆解為“聚焦核心實體+目標”的精準查詢，從源頭避免噪聲干擾。
長尾知識與消歧任務提效：AmbigNQ（消歧問答）中，傳統RAG的EM為45.80%，可訓練重寫器將其提升至47.80%（F1從58.50%升至60.71%）；PopQA（長尾知識）中，可訓練重寫器EM達45.72%，雖略低于LLM凍結重寫器（46.00%），但已遠超傳統RAG（43.20%）——說明重寫能強化長尾知識的關鍵詞（如低關注度人物、事件），讓檢索器精準定位稀缺信息。

2. 多項選擇問答：適配不同能力閱讀器，弱模型增益更顯著

在MMLU（涵蓋人文、STEM、社會科學等4大類）任務中，query重寫的價值隨閱讀器能力變化呈現差異化優勢，印證了“算法適配性”的重要性：

強閱讀器（ChatGPT）：除社會科學類（可能因領域知識高度依賴參數化記憶）外，其余三類均有提升——人文科學EM從75.6%（直接推理）升至77.0%（LLM重寫器），STEM類從58.8%升至63.5%，證明即使是強模型，重寫后的檢索信息仍能補充參數化知識缺口。
弱閱讀器（Vicuna-13B）：四大類別全部顯著提效，其中人文科學EM從39.8%升至43.2%，“其他”類別從50.2%升至59.3%——核心原因是弱模型的參數化知識更薄弱，重寫帶來的“高質量檢索上下文”能更直接地填補缺口，這也說明query重寫是“低成本提升弱模型性能”的高效方案。

3. 檢索質量：命中率提升印證“源頭優化”價值

檢索是RAG的核心環節，query重寫對檢索質量的提升是后續閱讀性能優化的基礎。在AmbigNQ數據集上的分析顯示：

傳統RAG（BM25篩選）的檢索命中率僅76.4%，而可訓練重寫器的命中率達82.2%，LLM凍結重寫器也達77.5%；即使是簡單的“片段拼接”方式，重寫方案的命中率（63.5%）也高于傳統RAG（61.1%）。
這一結果直接證明：query重寫的核心價值是“讓檢索器找對方向”——避免原始輸入的歧義、冗余導致的“無效檢索”，從源頭提升上下文文檔的相關性，為閱讀器提供更可靠的外部知識支撐。

典型案例效果：直觀看懂query重寫的“優化魔法”

實驗數據背后，是query重寫對“輸入-檢索-輸出”全流程的精準優化。通過三個典型案例，可清晰看到重寫如何解決實際問題，其中Q0代表原始輸入問題，Q1為LLM凍結重寫器生成的查詢，Q2為T5可訓練重寫器生成的查詢：

多跳問題：重寫后聚焦核心人物與目標（電影），成功召回女演員Charlotte Calthorpe的參演作品《Beach Rats》
關鍵詞優化：將“歌曲《All Star》出現在哪部2000年的電影中”重寫為“2000 movie "All Star" song”，避免歧義檢索
選擇題：簡化冗余背景，強化“社區規劃者”核心角色，快速定位“環境影響”相關答案

這些案例與數據共同印證：query重寫不是“簡單的文字改寫”，而是從算法源頭優化“輸入與檢索需求匹配度”的關鍵環節——它讓檢索器“有的放矢”，讓閱讀器“事半功倍”，最終實現檢索增強系統性能的高效提升，尤其為黑箱大模型的RAG優化提供了低成本、易落地的全新思路。

04、企業落地啟示

對于企業私有數據RAG系統，該研究提供了極具價值的實踐思路：

低成本起步：無需大規模訓練，直接用現有大模型（如GPT-3.5/4、通義千問等）作為凍結重寫器，通過少樣本提示快速落地，性價比極高
數據約束突破：針對私有數據難以收集訓練樣本的問題，凍結重寫器方案無需額外數據，直接利用大模型的生成能力
領域適配靈活：可通過領域特定提示優化重寫效果，比如在醫療、法律等專業領域，引導大模型提煉專業術語作為檢索關鍵詞
資源高效利用：小型可訓練重寫器（7.7億參數）即可實現顯著提效，相比動輒百億參數的大模型調優，大大降低了計算成本

對于從事RAG系統開發的工程師和研究者來說，這篇論文的思路值得借鑒：有時候解決復雜問題的關鍵，不在于堆砌復雜模型，而在于找準流程中的核心瓶頸——而query，正是RAG流程中最值得優化的“第一公里”。

責任編輯：龐桂玉來源： AI前沿洞察工坊

微軟 RAG 檢索增強生成

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看