RouteRAG:把文本+圖譜檢索做成“會自己選路”的RAG
RouteRAG 用“統一策略+兩階段獎勵”首次把文本/圖譜多輪檢索做成可學習的端到端強化學習問題,讓小模型也能:
- 自己規劃“何時查、查什么”
- 在正確率與檢索成本之間做最優權衡 成果來源于中科院計算所:

一、痛點直擊
老問題 | 現有方案短板 |
多跳問答需要“邊想邊查” | 多輪RAG只查文本,圖譜貴且一次性查完,無法隨推理動態補充 |
小模型做復雜推理 | 手工規則或靜態提示,不會自己決定“要不要查、查文本還是查圖譜” |
檢索開銷 | 圖譜檢索慢,固定流程常把無用關系也搬回來,費錢費時 |
RouteRAG核心目標:讓小模型像“老司機”一樣,自己決定何時踩油門前行(繼續推理)、何時拐彎取貨(檢索文本/圖譜/混合),還能繞開擁堵(避免冗余檢索)。
圖片
二、方案速覽
1. 統一動作空間
模型每一步只能做三件事,用特殊 token 觸發:
<think> … </think>繼續鏈式思考<search>[passage]/[graph]/[passage][graph] … </search>按需查文本、查圖譜或混合查<answer> … </answer>給出最終答案
2. 三段式檢索引擎
模式 | 實現 | 適用場景 |
文本檢索 | DPR 向量相似度 | 單跳、事實召回 |
圖譜檢索 | HippoRAG-2 個性化 PageRank 多跳擴散 | 多跳、關系推理 |
混合檢索 | RRF 融合兩路排名 | 不確定時“全都要” |
3. 兩階段強化學習(GRPO)
- Stage1 只給“答對”獎勵 → 模型先學會輸出正確結果
- Stage2 加入“效率”獎勵:答對前提下,檢索時間低于 batch 平均則加分,高于則扣分 → 模型學會“能少查就少查”
圖片
三、實驗亮點
圖片
1.小模型逆襲
Qwen2.5-3B RouteRAG 在多跳數據集 2Wiki、MuSiQue 上 F1 分別達 64.1、39.3,遠超同尺寸 Search-R1(50.8、30.9),追平甚至超過 GPT-4o-mini 版圖譜基線。
2.訓練數據省
僅用 1 萬條 HotpotQA 訓練,平均效果優于用 17 萬條訓練的 Search-R1,樣本效率↑。
3.消融驗證
- 去掉 Stage2 效率獎勵 → 檢索輪次+3~20%,F1 下降 0.5-1.1
- 固定單檢索模式 → 混合動態選擇平均 F1 再提 1-2 點
四、案例對比
問:Johnny Pemberton 在 NBC 情景喜劇里飾演 Bo Thompson,這部劇的創劇人是誰?
階段 | 模型行為 |
訓練前 | 幻覺成“That ’70s Show 創劇人是 Steven Molaro”,檢索也救不回來 |
訓練后 | 先查“Johnny Pemberton Bo Thompson”→ 確認劇集為 Superstore;再查“Superstore creator”→ 返回 Justin Spitzer,答案正確且僅 2 次檢索 |
傳送門:
RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning
論文地址: https://arxiv.org/pdf/2512.094

































