微軟亞院提出 Rewrite-Retrieve-Read 框架:以 query 重寫為起點,從源頭優化檢索質量

在檢索增強生成(RAG)成為大模型事實性輸出標配方案的今天,大多數研究都在死磕檢索器優化或閱讀器調優,卻忽略了一個核心起點——檢索查詢本身。當原始輸入與真實檢索需求存在差距時,再強的檢索器也難召回有效信息。
上一篇工作分享了2023 ACL的優化方案 HyDE,這篇工作來繼續分享經典query優化策略,微軟亞院與上海交通大學聯合團隊在2023 EMNLP提出的Rewrite-Retrieve-Read框架。通過在傳統RAG流程前增加query重寫步驟,成功填補了輸入文本與檢索需求的鴻溝,為黑箱大模型的檢索增強提供了全新思路。
論文地址:https://arxiv.org/pdf/2305.14283
項目地址:https://github.com/xbmxb/RAG-query-rewriting01、為什么需要給query“整容”?
大語言模型雖強,但存在兩大致命問題:幻覺生成和知識時效性滯后。檢索增強(RAG)通過引入外部知識完美緩解了這兩個問題,成為知識密集型任務的標準解決方案。
但傳統的“檢索-然后-閱讀”(Retrieve-then-Read)框架存在明顯短板:
- 檢索查詢要么直接使用原始輸入,要么由黑箱模型固定生成,完全忽略了輸入文本與真實檢索需求的差距
- 復雜問題(如多跳問答)直接作為查詢時,不僅無法補充有效知識,還會引入冗余噪聲
- 黑箱大模型無法直接調優,現有方法要么優化檢索器,要么設計復雜交互流程,成本高且效果有限
舉個直觀例子:問“Lady Mary-Gaye Curzon最小的女兒與Douglas Smith共同出演的2017年電影是什么?”,直接用這個長句檢索會讓搜索引擎抓不住重點;但如果重寫為“2017年電影 Lady Mary-Gaye Curzon最小的女兒 Douglas Smith”,檢索效率會大幅提升。
這正是該研究的核心洞察:優化檢索的起點(query),比優化后續環節更高效、更省資源。
02、核心框架:Rewrite-Retrieve-Read三步法
研究提出的全新框架在傳統RAG流程前增加了query重寫步驟,形成“重寫-檢索-閱讀”的閉環,整體流程清晰明了:

Query Rewrite(查詢重寫):精準匹配檢索需求
基于原始輸入 x (如開放域問答的問題、多項選擇的“問題+選項”),生成更貼合檢索需求的查詢
,核心是提煉關鍵信息、優化表達邏輯,避免原始輸入冗余或歧義導致的檢索偏差。
- 基礎方案(無訓練):直接用大語言模型(如ChatGPT)作為凍結重寫器,通過“指令+1-3個固定演示樣例+原始輸入”的少樣本提示引導生成查詢,輸出可是0個(無需檢索)、1個或多個搜索查詢,適配不同任務格式(如HotPotQA需輸出簡短短語查詢,MMLU需針對“問題+選項”優化查詢)。
- 進階方案(可訓練):用預訓練的T5-large(7.7億參數)作為可訓練重寫器,通過后續雙階段訓練,讓重寫器更適配下游凍結的檢索器與閱讀器。
Retrieve(檢索):高效獲取高質量上下文
用重寫后的查詢調用搜索引擎(實驗選用必應),無需構建私有文檔索引,可覆蓋實時、廣泛的知識,緩解固定數據庫的“時間錯位”問題;同時通過兩種方式處理檢索結果,平衡效率與質量:
- 片段拼接:直接提取必應篩選的網頁相關片段并拼接,類似瀏覽器常規搜索的結果預覽,快速獲取核心信息。
- URL解析+BM25篩選:解析網頁完整文本后,用BM25算法計算段落與查詢的相關性,保留高分段落,減少冗余信息對后續閱讀的干擾。
Read(閱讀):結合外部知識生成可靠輸出
將原始輸入 x 與檢索到的上下文文檔 doc 結合,輸入凍結的大語言模型閱讀器,通過少樣本提示完成閱讀理解與結果預測,最終輸出
(如問答的答案、選擇題的選項)。
- 閱讀器選擇:實驗選用ChatGPT(gpt-3.5-turbo)和Vicuna-13B,均以黑箱凍結狀態運行,避免大模型參數調優的高成本。
- 輸入格式:無檢索增強時僅輸入 x,有檢索增強時輸入“
(重寫查詢)”,確保外部知識與任務需求精準結合。
可訓練重寫器的雙階段訓練:讓小模型精準適配流程
完全依賴凍結的大語言模型存在“依賴人工提示、可能生成非最優查詢”的問題,為了更好地與凍結模塊(檢索器和閱讀器)對齊,研究設計“預熱訓練+強化學習”雙階段,用T5-large小模型承擔重寫任務,既控成本又提性能:
第一階段:預熱訓練(Warm-up)——用高質量偽數據打基礎
核心是讓T5-large先掌握“如何生成能讓閱讀器正確回答的查詢”,避免直接訓練的盲目性:
- 構建偽數據集:用大語言模型(如ChatGPT)對訓練集中的原始輸入 x 進行重寫,生成大量候選查詢;然后篩選出“用該查詢檢索后,閱讀器能輸出正確答案(
)”的樣本
,組成預熱數據集:
- 微調目標:以“讓T5-large生成的查詢盡可能貼近偽數據中的優質查詢”為目標,用標準的對數似然損失訓練,讓模型初步掌握重寫邏輯。

局限性:此時重寫器性能依賴偽數據質量(若人工提示不佳,生成的查詢可能非最優)和模型規模(T5-large參數較小),需后續強化學習進一步優化。
第二階段:強化學習(RL)——對齊檢索器與閱讀器需求
核心是讓重寫器“根據最終任務效果調整查詢生成策略”,以閱讀器的反饋為導向優化,采用PPO(近端策略優化)算法確保訓練穩定:
- 任務建模:把重寫器的查詢生成過程看作“馬爾可夫決策過程”:
- 狀態(s_t):當前已生成的查詢片段+原始輸入;
- 動作(a_t):生成下一個查詢token;
- 獎勵(R):根據“查詢檢索效果+閱讀器回答效果”綜合計算,確保獎勵與最終任務目標一致——比如包含“閱讀器回答的精確匹配度(EM)、F1分數”(衡量回答質量)、“檢索命中率”(衡量檢索到的文檔是否含正確答案),同時加入KL散度正則項,防止重寫器生成的查詢與初始預熱模型偏差過大,避免訓練失控。

- 訓練邏輯:先固定一個“基準策略”(預熱后的重寫器)用于生成查詢樣本;再用PPO算法更新模型參數,每次更新都讓新策略的查詢生成效果更優(獎勵更高),同時限制新策略與基準策略的差異,保證訓練過程平穩,最終讓重寫器生成的查詢既能精準檢索到有效文檔,又能幫助閱讀器輸出正確答案。

03、實驗驗證:多數據集持續提效
實驗在知識密集型任務的兩大核心場景(開放域問答、多項選擇問答)展開,通過與傳統RAG方案的對比,不僅用數據驗證了“重寫-檢索-閱讀”框架的性能優勢,更揭示了query重寫在算法優化中的關鍵作用——從“檢索源頭”解決信息匹配問題,比后續環節調優更高效。
關鍵實驗結果:性能提升背后的算法邏輯
實驗設置了“直接推理(無檢索)”“傳統Retrieve-then-Read”“LLM凍結重寫器”“可訓練重寫器”四組對比,結果顯示:query重寫不僅能持續提效,更能解決傳統RAG的固有痛點,其價值體現在三個核心維度:
1. 開放域問答:破解復雜問題檢索難題,挽回傳統RAG劣勢
在HotPotQA(多跳推理)、AmbigNQ(消歧問答)、PopQA(長尾知識)三個數據集上,兩種重寫方案均實現性能突破,尤其針對傳統RAG的短板形成有效補充:
- 多跳問題痛點解決:HotPotQA中,傳統RAG直接用多跳長句檢索(如“XX的女兒與XX共同出演的2017電影”),因關鍵詞分散、語義模糊引入大量噪聲,導致EM分數(30.47%)低于無檢索的直接推理(32.36%);而加入query重寫后,凍結重寫器將EM提升至32.80%,可訓練重寫器進一步提升至34.38%(F1達45.97%)——這證明重寫能將復雜問題拆解為“聚焦核心實體+目標”的精準查詢,從源頭避免噪聲干擾。
- 長尾知識與消歧任務提效:AmbigNQ(消歧問答)中,傳統RAG的EM為45.80%,可訓練重寫器將其提升至47.80%(F1從58.50%升至60.71%);PopQA(長尾知識)中,可訓練重寫器EM達45.72%,雖略低于LLM凍結重寫器(46.00%),但已遠超傳統RAG(43.20%)——說明重寫能強化長尾知識的關鍵詞(如低關注度人物、事件),讓檢索器精準定位稀缺信息。

2. 多項選擇問答:適配不同能力閱讀器,弱模型增益更顯著
在MMLU(涵蓋人文、STEM、社會科學等4大類)任務中,query重寫的價值隨閱讀器能力變化呈現差異化優勢,印證了“算法適配性”的重要性:
- 強閱讀器(ChatGPT):除社會科學類(可能因領域知識高度依賴參數化記憶)外,其余三類均有提升——人文科學EM從75.6%(直接推理)升至77.0%(LLM重寫器),STEM類從58.8%升至63.5%,證明即使是強模型,重寫后的檢索信息仍能補充參數化知識缺口。
- 弱閱讀器(Vicuna-13B):四大類別全部顯著提效,其中人文科學EM從39.8%升至43.2%,“其他”類別從50.2%升至59.3%——核心原因是弱模型的參數化知識更薄弱,重寫帶來的“高質量檢索上下文”能更直接地填補缺口,這也說明query重寫是“低成本提升弱模型性能”的高效方案。

3. 檢索質量:命中率提升印證“源頭優化”價值
檢索是RAG的核心環節,query重寫對檢索質量的提升是后續閱讀性能優化的基礎。在AmbigNQ數據集上的分析顯示:
- 傳統RAG(BM25篩選)的檢索命中率僅76.4%,而可訓練重寫器的命中率達82.2%,LLM凍結重寫器也達77.5%;即使是簡單的“片段拼接”方式,重寫方案的命中率(63.5%)也高于傳統RAG(61.1%)。
- 這一結果直接證明:query重寫的核心價值是“讓檢索器找對方向”——避免原始輸入的歧義、冗余導致的“無效檢索”,從源頭提升上下文文檔的相關性,為閱讀器提供更可靠的外部知識支撐。

典型案例效果:直觀看懂query重寫的“優化魔法”
實驗數據背后,是query重寫對“輸入-檢索-輸出”全流程的精準優化。通過三個典型案例,可清晰看到重寫如何解決實際問題,其中Q0代表原始輸入問題,Q1為LLM凍結重寫器生成的查詢,Q2為T5可訓練重寫器生成的查詢:

- 多跳問題:重寫后聚焦核心人物與目標(電影),成功召回女演員Charlotte Calthorpe的參演作品《Beach Rats》
- 關鍵詞優化:將“歌曲《All Star》出現在哪部2000年的電影中”重寫為“2000 movie "All Star" song”,避免歧義檢索
- 選擇題:簡化冗余背景,強化“社區規劃者”核心角色,快速定位“環境影響”相關答案
這些案例與數據共同印證:query重寫不是“簡單的文字改寫”,而是從算法源頭優化“輸入與檢索需求匹配度”的關鍵環節——它讓檢索器“有的放矢”,讓閱讀器“事半功倍”,最終實現檢索增強系統性能的高效提升,尤其為黑箱大模型的RAG優化提供了低成本、易落地的全新思路。
04、企業落地啟示
對于企業私有數據RAG系統,該研究提供了極具價值的實踐思路:
- 低成本起步:無需大規模訓練,直接用現有大模型(如GPT-3.5/4、通義千問等)作為凍結重寫器,通過少樣本提示快速落地,性價比極高
- 數據約束突破:針對私有數據難以收集訓練樣本的問題,凍結重寫器方案無需額外數據,直接利用大模型的生成能力
- 領域適配靈活:可通過領域特定提示優化重寫效果,比如在醫療、法律等專業領域,引導大模型提煉專業術語作為檢索關鍵詞
- 資源高效利用:小型可訓練重寫器(7.7億參數)即可實現顯著提效,相比動輒百億參數的大模型調優,大大降低了計算成本
對于從事RAG系統開發的工程師和研究者來說,這篇論文的思路值得借鑒:有時候解決復雜問題的關鍵,不在于堆砌復雜模型,而在于找準流程中的核心瓶頸——而query,正是RAG流程中最值得優化的“第一公里”。






























