從檢索到生成全優(yōu)化:ACL 2025 新方法 DRAG,復(fù)雜查詢 RAG 新救星

在大語言模型(LLMs)席卷各個領(lǐng)域的今天,檢索增強生成(RAG)已成為解決模型事實幻覺、信息過時的核心方案。但你是否發(fā)現(xiàn),當查詢表述存在多種詞匯變化時,RAG的檢索準確性會大幅下降?比如查詢“職業(yè)”時,文檔中可能用“專業(yè)”“演員”甚至“奧斯卡獎項”等間接表述,傳統(tǒng)RAG很難精準匹配這些相關(guān)信息。
針對這一痛點,北航、北大、中關(guān)村實驗室聯(lián)合團隊在ACL 2025上提出了詞匯多樣性感知的RAG方法(DRAG),通過細粒度相關(guān)性評估和高風(fēng)險token校準,讓RAG在復(fù)雜查詢場景下性能實現(xiàn)質(zhì)的飛躍,尤其在HotpotQA數(shù)據(jù)集上準確率提升10.6%!
論文地址:https://aclanthology.org/2025.acl-long.1346.pdf
項目地址:https://github.com/Zhange21/DRAG
01、RAG的核心痛點:被忽視的詞匯多樣性
RAG的核心邏輯是“檢索相關(guān)文檔+增強生成”,但傳統(tǒng)方法存在兩個關(guān)鍵缺陷:
檢索相關(guān)性太粗糙
現(xiàn)有RAG大多用單一標準判斷文檔相關(guān)性,忽略了查詢中不同成分的詞匯多樣性差異:
- 固定成分:如專有名詞“Hattie McDaniel”,表達方式固定,易判斷相關(guān)性;
- 可變成分:如“occupation”(職業(yè)),可表述為“profession”“actress”(演員)等,判斷難度大;
- 補充成分:如與“Hattie McDaniel的職業(yè)”相關(guān)的“美國名人”,未明確出現(xiàn)在查詢中但能輔助檢索。
這種差異導(dǎo)致傳統(tǒng)RAG要么誤判部分相似文檔為高相關(guān),要么遺漏表達方式不同的真正相關(guān)文檔。
生成校準無差別
檢索文檔中難免混入無關(guān)噪聲,而不同token受噪聲影響程度不同:
- 核心實體token(如職業(yè)名稱、人名):直接從檢索內(nèi)容提取,易受噪聲干擾;
- 輔助token(如連詞、代詞):受影響極小或無語義價值。
傳統(tǒng)方法要么不校準,要么對所有token無差別校準,既影響生成質(zhì)量又增加計算開銷。

02、DRAG的創(chuàng)新方案:雙模塊破解難題
DRAG通過“多樣性敏感相關(guān)性分析器(Diversity-Sensitive Relevance Analyzer,DRA)”和“風(fēng)險引導(dǎo)的稀疏校準(Risk-guided Sparse Calibration,RSC)”兩個核心模塊,分別解決檢索和生成階段的問題,整體框架如下:

模塊1:DRA——讓檢索懂“詞匯差異”
DRA的核心是“按詞匯多樣性拆分查詢,差異化評估相關(guān)性”,具體分為兩步:
1. 查詢解耦:三類成分精準劃分
將查詢拆分為三種屬性的成分,適配不同詞匯多樣性:
- 固定成分(Invariant):無詞匯多樣性、直接從查詢中提取的成分。如“Portland”(地名),表達方式固定,需文檔明確提及;
- 可變成分(Variant):具有詞匯多樣性、直接從查詢中提取的成分。如“capital”(首府),可替換為“administrative center”(行政中心);
- 補充成分(Supplementary):未在查詢中明確提及,但可通過合理推斷補充以輔助相關(guān)性評估的成分(非必需),且具有顯著詞匯多樣性。如“州或國家”,未明確出現(xiàn)但輔助判斷“Portland的首府歸屬”。
基于上述屬性定義,訓(xùn)練DRA模塊,將查詢分解:

并為每個組件 c_j 分配屬性a_j,該過程可表示為:

2. 細粒度評估:不同成分不同標準
為精準評估每個成分與檢索文檔的相關(guān)性,進一步針對不同屬性的成分制定細粒度評估:

評估標準:
- 固定成分:嚴格二元評分(1=明確提及,0=未提及);
- 可變/補充成分:靈活連續(xù)評分(0-1分,衡量語義關(guān)聯(lián)度);
- 加權(quán)求和:在獲得各組件得分后,通過加權(quán)求和計算文檔d_i與查詢 x 的整體相關(guān)性得分:

固定成分權(quán)重最高(1.0),可變成分(α)和補充成分(β)權(quán)重介于0-1之間,最終篩選Top-r高相關(guān)文檔。3. DRA 模塊訓(xùn)練:輕量化適配,數(shù)據(jù)驅(qū)動
基礎(chǔ)模型選擇:采用小型開源模型 Qwen-0.5B 作為基礎(chǔ)模型,避免高額計算開銷,適配輕量化部署需求;
訓(xùn)練數(shù)據(jù)構(gòu)建:兩類數(shù)據(jù)驅(qū)動訓(xùn)練 ——① 1200 條查詢分解數(shù)據(jù)(輸入查詢 + 指令,輸出 “組件 - 屬性” 對,基于 GPT-4 生成并人工驗證);② 5543 條相關(guān)性評估數(shù)據(jù)(輸入查詢 + 組件 + 檢索文檔,輸出組件得分及解釋,覆蓋高 / 中 / 低相關(guān)場景);
訓(xùn)練目標與損失:以 “精準拆分組件” 和 “準確評估相關(guān)性” 為目標,采用交叉熵損失進行監(jiān)督微調(diào),確保模塊能穩(wěn)定識別不同詞匯多樣性的查詢組件,并輸出合理評分。

模塊2:RSC——精準校準高風(fēng)險token
為解決檢索文檔中無關(guān)信息對預(yù)測生成token的差異化干擾問題,RSC通過“無關(guān)風(fēng)險”量化無關(guān)噪聲對每個生成token的影響,并對高風(fēng)險token的解碼過程進行稀疏調(diào)整——在減輕細粒度噪聲干擾的同時,保持極低的計算開銷。
1. 無關(guān)風(fēng)險量化:三維度綜合判斷
計算每個生成token的“無關(guān)風(fēng)險”,識別高風(fēng)險token,具體分為以下三個維度:
- 詞匯風(fēng)險:查詢成分多樣性越高,風(fēng)險越大

- 注意力風(fēng)險:對低相關(guān)文檔的注意力占比越高,風(fēng)險越大

- 預(yù)測風(fēng)險:模型生成置信度越低,風(fēng)險越大

最終,通過融合上述三個維度,得到tokenyty_tyt的綜合無關(guān)風(fēng)險:

2. 稀疏校準:只改該改的token
基于量化的無關(guān)風(fēng)險,RSC通過將高風(fēng)險token的輸出分布與“無關(guān)文本條件下的生成分布”對比,對高風(fēng)險token進行稀疏校正,從而減輕噪聲干擾。
- 構(gòu)建參考噪聲:選取DRA評估的最低相關(guān)文檔,模擬真實無關(guān)噪聲

- 閾值篩選:僅對風(fēng)險≥δ的高風(fēng)險token進行校準
- 分布調(diào)整:用噪聲文檔的生成分布校正高風(fēng)險token的解碼過程,抵消無關(guān)干擾

DRAG完整推理流程
- 檢索階段:DRA拆分查詢成分→差異化評估文檔相關(guān)性→篩選Top-r相關(guān)文檔+最低相關(guān)噪聲文檔;
- 生成階段:逐token計算無關(guān)風(fēng)險→高風(fēng)險token用噪聲文檔校準→低風(fēng)險token直接生成→輸出最終結(jié)果。

03、實驗結(jié)果:多任務(wù)全面領(lǐng)先
DRAG在短文本生成、長文本生成、多跳問答三大任務(wù)中,均顯著優(yōu)于傳統(tǒng)RAG方法:
主要結(jié)果:全任務(wù)顯著領(lǐng)先,性能突破明顯
實驗結(jié)果顯示,DRAG在所有任務(wù)中均表現(xiàn)出優(yōu)于基準方法的性能,尤其在多跳問答和短文本生成任務(wù)中實現(xiàn)大幅提升,具體如下:

vs 無檢索基準:檢索增強價值凸顯
DRAG通過引入外部檢索與精細化處理,顯著超越了僅依賴參數(shù)知識的LLM:
- 在PopQA數(shù)據(jù)集上,DRAG準確率達到68.3%,較無檢索的Llama3-8B-Instruct(22.8%)提升45.5%,充分證明了“精準檢索+有效利用”的核心價值;
- 在TriviaQA數(shù)據(jù)集上,DRAG準確率77.4%,較無檢索基準(69.4%)提升8%,即使是本身事實性較強的LLM,也能通過DRAG進一步彌補知識缺口與表達差異帶來的誤差;
- 多跳任務(wù)中,HotpotQA準確率從27.7%提升至46.4%,2WikiMultiHopQA從45.6%提升至54.6%,驗證了DRAG在復(fù)雜推理場景下的檢索增強能力。
vs 有檢索基準與先進RAG方法:精細化處理見效
與傳統(tǒng)RAG及先進方案相比,DRAG的詞匯多樣性感知機制帶來了顯著優(yōu)勢:
- 短文本生成任務(wù):
PopQA數(shù)據(jù)集:DRAG準確率68.3%,較次優(yōu)的RECOMP(62.8%)提升4.9%;
TriviaQA數(shù)據(jù)集:DRAG準確率77.4%,較次優(yōu)的Llama3-8B-Instruct(73.0%)提升4.4%;
關(guān)鍵原因:DRA模塊通過差異化評估,避免了“同義表達文檔被遺漏”“部分相似文檔誤判”的問題,從源頭提升了檢索質(zhì)量,案例對比如下:

- 多跳問答任務(wù):
HotpotQA與2WikiMultiHopQA數(shù)據(jù)集上,DRAG準確率均提升10.6%,是所有對比方法中提升最顯著的;
核心優(yōu)勢:多跳任務(wù)的查詢成分更復(fù)雜,詞匯多樣性帶來的檢索難度更高,DRAG的細粒度組件分解與相關(guān)性評估能精準串聯(lián)多步推理所需的文檔,而傳統(tǒng)RAG往往因單一評估標準遺漏關(guān)鍵中間文檔。 - 長文本生成任務(wù):
ASQA數(shù)據(jù)集上,DRAG的str-em指標達到35.0(最優(yōu)),QA-Hit、QA-F1分別為35.2、26.9,均優(yōu)于其他對比方法;
雖在QA-EM(4.0)上略有差距,但整體綜合性能領(lǐng)先,證明DRAG在長文本生成中既能保證信息全面性,又能維持與標準答案的語義對齊,避免因詞匯表達差異導(dǎo)致的信息偏差。
消融實驗:拆解核心模塊,驗證關(guān)鍵貢獻
為明確DRA(多樣性敏感相關(guān)性分析器)與RSC(風(fēng)險引導(dǎo)的稀疏校準)的具體作用,團隊進行了模塊消融與超參數(shù)敏感性分析,結(jié)果如下:
模塊消融:雙模塊協(xié)同發(fā)力,缺一不可
- 僅DRA模塊:HotpotQA準確率提升3.1%,證明差異化相關(guān)性評估能有效篩選高相關(guān)文檔,解決“檢索不準”問題;
- 僅RSC模塊:PopQA準確率提升0.7%,HotpotQA提升9.1%,說明風(fēng)險校準能有效抵消無關(guān)噪聲干擾,尤其在多跳任務(wù)中,噪聲對核心推理的影響更顯著,RSC的作用更突出;
- 雙模塊結(jié)合:性能實現(xiàn)“1+1>2”的提升,證明DRA的“精準檢索”與RSC的“精準校準”形成協(xié)同,從檢索到生成全流程優(yōu)化,是DRAG性能領(lǐng)先的核心原因。
超參數(shù)敏感性:關(guān)鍵參數(shù)影響規(guī)律明確
- DRA模塊的組件權(quán)重(α、β):
α(可變組件權(quán)重):對性能影響更顯著,隨著α增大,模型準確率呈“倒U型”趨勢——α過小會忽視可變組件的詞匯多樣性,α過大則會引入過多噪聲;
β(補充組件權(quán)重):影響相對溫和,因補充組件是非必需的輔助信息,過度加權(quán)反而會稀釋核心組件的相關(guān)性信號;
最優(yōu)取值:α=0.8,β=0.5,既充分重視可變組件的表達差異,又不過度依賴補充組件。 - RSC模塊的校正閾值(δ):
隨著δ增大,被校準的高風(fēng)險token比例逐漸減少,模型性能整體呈下降趨勢;
δ較小時(如δ=0.3),校準覆蓋的token過多,可能誤校正低風(fēng)險token,導(dǎo)致生成流暢度下降;
δ較大時(如δ=0.7),僅校準極少數(shù)token,無法充分抵消噪聲干擾;
最優(yōu)取值:δ=0.5,能精準覆蓋“真正受噪聲影響的高風(fēng)險token”,在去噪與流暢度之間達到平衡。

深度分析:計算開銷與模型兼容性雙優(yōu)
生成階段計算開銷:稀疏校準高效節(jié)能
對比DRAG與其他解碼優(yōu)化類RAG方法(如CAD)、全token校準策略的計算開銷:

結(jié)果顯示,所提方法在生成階段引入的計算開銷遠低于其他基于解碼的 RAG 方法,且與基礎(chǔ)模型相比,計算開銷僅略有增加,但性能提升顯著。
不同大語言模型的兼容性:泛化能力強
在Llama2-7B-Chat、Llama2-13B-Chat、Llama3-8B-Instruct、Alpaca-7B、Mistral-7B等5種主流開源模型上驗證DRAG的適配性:

- DRAG在所有測試模型上均實現(xiàn)性能提升,無明顯兼容性問題;
- 對基礎(chǔ)性能較弱的模型提升更顯著:如Llama2-7B-Chat的準確率從38.2%提升至67.0%,提升幅度達28.8%;
- 對高性能模型仍有穩(wěn)定提升:Llama3-8B-Instruct從63.4%提升至68.3%,證明DRAG的核心機制(詞匯多樣性感知+稀疏校準)能有效彌補不同模型在“文檔相關(guān)性評估”與“噪聲抵抗”方面的共性短板。
04、總結(jié)
DRAG(Lexical Diversity-aware RAG)的核心突破,在于跳出傳統(tǒng)RAG“單一標準檢索+無差別生成”的局限,針對性解決“查詢詞匯多樣性”這一關(guān)鍵痛點——通過DRA(多樣性敏感相關(guān)性分析器) 聚焦檢索側(cè)優(yōu)化,按查詢組件的詞匯多樣性屬性(固定/可變/補充)制定差異化評估標準,精準篩選出真正相關(guān)的文檔,從源頭避免因表達差異導(dǎo)致的“漏檢”或“誤檢”;再通過RSC(風(fēng)險引導(dǎo)的稀疏校準) 聚焦生成側(cè)優(yōu)化,量化每個token的無關(guān)風(fēng)險,僅對受噪聲干擾的高風(fēng)險token進行校準,在保證生成準確性的同時控制計算開銷。這種“檢索-生成”全流程的協(xié)同優(yōu)化思路,為RAG性能提升提供了更貼合真實查詢場景的新方向。
落地思考
從落地價值來看,DRAG具備“輕量化”與“場景適配靈活性”的雙重優(yōu)勢:一方面,其核心的DRA模塊僅需基于Qwen-0.5B等小型開源模型,用6743條訓(xùn)練數(shù)據(jù)即可完成微調(diào),無需大規(guī)模算力支撐,輕量化特性顯著;另一方面,項目已完全開源,開發(fā)者可直接基于現(xiàn)有框架快速部署,或結(jié)合自身場景二次開發(fā)——尤其適合需要提升復(fù)雜查詢下RAG檢索精度的技術(shù)團隊,即使是資源有限的場景也能高效落地。
需特別注意的是,DRAG的兩大模塊在場景適配性上存在差異:
- DRA模塊(檢索側(cè)):適配范圍更廣,無論是開源模型還是閉源模型場景,均能借鑒其“按詞匯多樣性拆分查詢、差異化評估文檔”的核心思路——例如在調(diào)用閉源模型API時,可先通過獨立部署的DRA模塊預(yù)處理檢索文檔,篩選出高相關(guān)內(nèi)容后再輸入閉源模型,間接提升檢索增強效果;
- RSC模塊(生成側(cè)):受限于技術(shù)依賴,僅能適配開源模型——其風(fēng)險量化(如注意力風(fēng)險需獲取模型對文檔的注意力分數(shù)、預(yù)測風(fēng)險需獲取token的預(yù)測概率)依賴模型底層輸出,而閉源模型通常不對外開放此類信息,因此無法直接應(yīng)用,僅能在開源模型生態(tài)中發(fā)揮生成側(cè)優(yōu)化價值。
使用場景
從適用場景來看,DRAG在“檢索精準度優(yōu)先”的任務(wù)中表現(xiàn)突出,具體可覆蓋三類核心場景:
- 開放域問答:如百科知識查詢、事實性問答(如“某人物的職業(yè)”“某事件的時間”),DRA能精準處理查詢中專有名詞、同義表達等詞匯差異,避免傳統(tǒng)RAG的檢索偏差;若基于開源模型,還可搭配RSC進一步降低生成噪聲,提升答案準確性;
- 多跳問答:需串聯(lián)多個文檔信息的復(fù)雜推理任務(wù)(如 “某電影導(dǎo)演的母親是誰”),DRA 可拆分查詢中的多步推理組件,精準匹配所需的相關(guān)文檔,RSC 則保障核心推理 token 不受無關(guān)信息干擾;
- 垂直領(lǐng)域應(yīng)用:如法律條款檢索(需匹配“合同糾紛”“違約責(zé)任”等專業(yè)術(shù)語的多樣表述)、醫(yī)療知識問答(需關(guān)聯(lián)“病癥-癥狀-治療方案”的語義關(guān)聯(lián)),此類場景中,DRA的“組件拆分+差異化評估”思路可直接復(fù)用(需補充領(lǐng)域?qū)儆?xùn)練數(shù)據(jù)適配專業(yè)詞匯);若采用開源模型構(gòu)建專屬系統(tǒng),RSC還能進一步優(yōu)化專業(yè)內(nèi)容的生成質(zhì)量,避免無關(guān)信息干擾核心結(jié)論。
對于多跳問答的進一步思考
DRA本質(zhì)是“一輪檢索+多成分并行評估”,核心解決“單步檢索的詞匯多樣性偏差”,無法獨立完成多跳任務(wù)的邏輯串聯(lián)。因此,在多跳場景中,可將DRA作為“檢索增強插件”融入多輪推理框架:由多輪框架負責(zé)拆分查詢、串聯(lián)推理邏輯(如生成子查詢、驗證中間結(jié)果),DRA則為每一步子查詢優(yōu)化檢索精度,確保每輪推理都能獲取高質(zhì)量文檔;若基于開源模型,再搭配RSC校準每一步的生成風(fēng)險,理論上可同時提升多跳任務(wù)的“檢索準確性”與“推理連貫性”。而在閉源模型場景下,即使無法應(yīng)用RSC,僅通過DRA優(yōu)化檢索環(huán)節(jié),也能為多輪推理提供更可靠的信息支撐,間接改善多跳問答效果。































