TAdaRAG,用動態(tài)知識圖譜破解RAG斷章取義
https://arxiv.org/html/2511.12520v1
https://github.com/IAAR-Shanghai/TAdaRAG
TAdaRAG: Task Adaptive Retrieval-Augmented Generation via On-the-Fly
Knowledge Graph Construction一、背景:當RAG遇上"碎片化"困境
傳統(tǒng)RAG雖然強大,但在實際應用中有個致命傷——知識碎片化。想象一下,你讓AI讀一本厚厚的醫(yī)療手冊回答復雜問題,但它只能一頁一頁翻看,看完就忘前后文聯系,這不就是典型的"斷章取義"嗎?
論文開篇就用一張圖(Figure 1)點明了三大痛點:
Figure 1
問題一目了然:
- 信息丟失:長文檔被強制切塊,關鍵信息被截斷,模型只能基于局部片段回答, hallucination(幻覺)隨之而來
- 推理斷裂:chunk之間沒有邏輯關聯,多跳推理成了"跳房子",答案支離破碎
- 噪音干擾:一股腦兒把所有文本塞給LLM,無關信息淹沒關鍵信號
更尷尬的是,現有的GraphRAG方法雖然用知識圖譜梳理關系,但它們依賴預先構建好的靜態(tài)圖譜。這玩意兒維護成本高、擴展性差,就像用去年的舊地圖找今年新開的餐廳,準不了。
二、方案:TAdaRAG如何讓知識"按需生長"
TAdaRAG的核心思想超級直接:別檢索靜態(tài)圖譜了,直接在推理時動態(tài)構建任務專屬的子圖!
整個框架分為兩階段訓練,看圖(Figure 2)就明白:
Figure 2
Stage 1:監(jiān)督式知識抽取冷啟動
這個階段解決"怎么抽"的問題。關鍵在于意圖驅動的模板路由:
第一步:意圖檢測
- 拿到用戶查詢后,先判斷屬于哪個領域(醫(yī)療/法律/金融/新聞等)
- 論文設計了6大類領域模板,每個模板預定義了高影響力的實體類型
- 比如醫(yī)療領域會自動抽取「疾病」「癥狀」「藥物」「手術」等實體
第二步:高質量語料蒸餾
- 用GPT-4o、DeepSeek等強模型生成9,548條"查詢-知識-圖譜"三元組
- 覆蓋4大領域7個子數據集,保證跨領域泛化能力
- 用LoRA做SFT,讓模型學會"按模板精準抽取"
這個階段讓模型**從"亂抽"變成"會抽"**,生成的圖譜既精簡又相關。
Stage 2:RL驅動的自適應優(yōu)化
光有模板還不夠,要讓模型**學會自己判斷"什么值得抽"**。
并行構造多個候選子圖
- 對每個查詢,模型同時生成p個不同的知識子圖
- 用特殊token
<|startextraction|>和<|endextraction|>標記圖譜邊界 - 相當于讓模型"頭腦風暴"多種知識組織方式
Mixing Network:動態(tài)加權融合這是整個框架最巧妙的設計。對于每個token,模型會計算兩個隱藏狀態(tài):
- H_base:只看原始文檔的表示
- H_graph:加了圖譜信息的表示
然后用一個3層MLP動態(tài)學習權重ω,決定當前token應該多依賴"純文本"還是"圖譜知識":

REINFORCE獎勵機制
- 獎勵函數:R_{i,k} = max(0, L_i^{base} - L_{i,k}^{graph} - \bar{R}_i)
- 簡單說:如果加了圖譜后比"裸答"更好,就加分
- 這樣訓練后,模型自動學會壓縮冗余、保留關鍵,圖譜大小暴減(見Table 7)
Table 7
三、結論:實驗結果證明實力
公開數據集全面碾壓
Table 1展示了Mistral-7B和Qwen2.5-7B上的結果:
Table 1
核心數據說話:
- 醫(yī)療領域:Health數據集從37.40提升到40.77,幻覺顯著減少
- 法律領域:Legal從35.80飆到49.88,處理長法律條款能力爆表
- 多跳推理:2WikiMQA 30.30 → 39.31,推理鏈完整性大幅提升
- 長文本摘要:GovReport 31.60 → 36.41,碾壓所有baseline
長文本任務不落下風
Figure 3對比了專門的長文本模型:
Figure 3
TAdaRAG在不修改KV緩存的情況下,效果持平甚至超越Self-Extend、H2O+THINK等專用模型。這說明動態(tài)圖譜構建本身就是強大的長文本處理機制。
真實業(yè)務場景驗證
最硬核的是他們在Xinyu AI搜索的真實業(yè)務中構建了NowNewsQA數據集(3,150條新聞多文檔問答)。
Figure 5展示了多維度評估結果:
Figure 5
人類專家+GPT-4o雙評分,TAdaRAG在**簡潔性(8.25 vs 7.64)和事實性(8.45 vs 7.85)**上全面領先。尤其在新聞這種噪音大、時效性強的場景,優(yōu)勢更明顯。
Ablation研究:每個模塊都值錢
Figure 6的消融實驗很有說服力:
圖片
- 純Prompt:已經比NaiveRAG強一大截,證明圖譜價值
- +SFT:再漲2-5個點,高質量抽取很重要
- +RL:最后沖刺,復雜任務提升最猛(Legal +26.86%)
超參數分析(Figure 7):
圖片
并行子圖數量p=3時最優(yōu),多了噪音,少了不夠探索。Qwen2.5因為基礎能力強,對p更魯棒。
效率與效果兼得
Appendix的Figure 9顯示:
圖片
動態(tài)建圖總耗時反而更低,因為:
- 不需要像GraphRAG那樣預建全量索引
- 圖譜壓縮后(Table 7),輸入token數大幅減少
Table 7



































