從 ToG 到 ToG-2:ICLR 2025 新突破,讓混合 RAG 真正落地復(fù)雜場景

在大語言模型(LLM)主導(dǎo)的AI時代,檢索增強生成(RAG)已成為解決模型知識匱乏和幻覺問題的核心方案。但面對需要多步推理、邏輯鏈追蹤的復(fù)雜任務(wù)時,現(xiàn)有RAG方法常顯得力不從心——基于文本的RAG方法抓不住實體間的結(jié)構(gòu)化關(guān)聯(lián),基于知識圖譜(KG)的RAG方法又存在內(nèi)在的不完整性和信息缺失問題的短板,而簡單的混合方法也只是“各自為戰(zhàn)”。
來自IDEA研究院、人大高瓴人工智能學(xué)院、港中文、港科等機構(gòu)的團隊在2025 ICLR提出的ToG-2(Think-on-Graph 2.0),通過緊密耦合文本與知識圖譜的檢索過程,徹底改變了這一現(xiàn)狀。它讓LLM像人類一樣"邊探索邊推理",在7個知識密集型數(shù)據(jù)集的6個上實現(xiàn)SOTA,還能將Llama-2 13B等小模型的推理能力提升至GPT-3.5水平。
論文地址:https://arxiv.org/pdf/2407.10805v7
項目地址:https://github.com/DataArcTech/ToG-2
01、現(xiàn)有RAG的三大痛點
當(dāng)前主流RAG方法在復(fù)雜推理任務(wù)中存在難以逾越的障礙:
- 文本基RAG:"只見樹木不見森林"
依賴向量檢索衡量文本語義相似度,但無法捕捉實體間的深層關(guān)聯(lián)。比如它可能認不出"全球金融危機"和"2008年衰退"指的是同一事件,也難以追蹤多步推理所需的邏輯鏈條。 - 知識圖譜基RAG:"框架完整但血肉缺失"
能清晰呈現(xiàn)實體間的結(jié)構(gòu)化關(guān)系,但自身存在天然的不完整性,缺乏實體的詳細上下文信息。例如知識圖譜可能知道A和B是關(guān)聯(lián)實體,卻無法提供B的具體屬性或事件細節(jié)。 - 傳統(tǒng)混合RAG:"松散結(jié)合,互不助力"
簡單將文本和知識圖譜的檢索結(jié)果拼接,沒有利用一種知識源的優(yōu)勢優(yōu)化另一種的檢索過程。面對需要深度挖掘的復(fù)雜查詢時,仍會力不從心。

這些問題導(dǎo)致LLM在處理多跳推理、復(fù)雜問答等任務(wù)時,無法形成連貫的推理軌跡,要么答案不準確,要么缺乏必要的邏輯支撐。
02、ToG-2的核心創(chuàng)新:緊密耦合的混合檢索范式
ToG-2借鑒ToG方法中“在知識圖譜內(nèi)進行多跳檢索”的核心思路,提出了KG×Text的緊密耦合混合框架,打破了文本與知識圖譜的檢索壁壘。它的核心思想是:用知識圖譜引導(dǎo)文本檢索的深度,用文本上下文提升圖譜檢索的精度,將基于三元組的邏輯鏈拓展與實體的非結(jié)構(gòu)化上下文知識相結(jié)合,通過迭代探索實現(xiàn)層層遞進的推理過程。

ToG-2的推理過程模擬了人類解決復(fù)雜問題的思路:從核心問題出發(fā),先找到關(guān)鍵線索,再基于線索探索相關(guān)信息,不斷積累證據(jù)直到形成答案。具體分為三個階段:
初始化:鎖定推理起點,完成初步信息校驗
這一階段的核心目標是為后續(xù)推理找到精準的 "突破口",避免無意義的盲目探索。
- 首先,ToG-2 會對輸入問題進行實體識別與關(guān)聯(lián)(Entity Linking),從問題中提取出核心主題實體(比如 "Craig Virgin"“伊利諾伊州越野賽記錄”),并將這些實體與知識圖譜中的對應(yīng)節(jié)點匹配,確保推理起點的準確性。
- 接著執(zhí)行 "主題剪枝(Topic Prune)" 步驟:通過 LLM 評估每個識別出的實體與問題的相關(guān)性,篩選出最適合作為推理起點的實體集合(例如剔除與 "比賽記錄" 無關(guān)的實體),形成初始主題實體集。
- 最后,利用稠密檢索模型(DRM)從與初始主題實體相關(guān)的文檔中,提取排名前 k 的文本塊作為初始上下文。LLM 會結(jié)合自身知識與這些初始上下文,判斷是否已能直接回答問題 —— 若信息足夠則直接輸出答案,若不足則進入下一階段,并總結(jié)初步線索供后續(xù)探索使用。
這一步相當(dāng)于人類解決問題時的 "初步調(diào)研",既明確了探索方向,又避免了冗余操作。

異質(zhì)知識探索:迭代聯(lián)動檢索,拓展推理邊界
這是 ToG-2 的核心階段,通過“圖譜檢索→文本檢索→實體篩選”的循環(huán)迭代,實現(xiàn)知識的深度挖掘與精準過濾,每一輪迭代都讓推理更接近答案。
- 循環(huán)的起點是知識引導(dǎo)的圖譜檢索:基于上一輪的主題實體,從知識圖譜中提取所有關(guān)聯(lián)關(guān)系(比如 "Craig Virgin" 的 "比賽記錄"" 相關(guān)運動員 "等關(guān)系),再通過 LLM 篩選出與問題高度相關(guān)的關(guān)系(剔除" 出生地 "這類無關(guān)關(guān)系),并基于篩選后的關(guān)系找到新的關(guān)聯(lián)實體(比如可能打破記錄的運動員"Lukas Verzbicas"),形成候選實體集。
- 隨后進入上下文增強的文本檢索:為每個候選實體收集相關(guān)文檔構(gòu)建上下文池,再將實體的三元組關(guān)系(如 "Craig Virgin - 記錄 - 伊利諾伊州越野賽")轉(zhuǎn)換為自然語言句子,附加到文本塊前計算相關(guān)性得分 —— 這種方式能精準捕捉 "實體 - 關(guān)系 - 問題" 的關(guān)聯(lián),避免檢索到無關(guān)文本。
- 最后執(zhí)行實體剪枝:根據(jù)文本塊的相關(guān)性得分,對候選實體進行排序,篩選出排名前 W 的實體作為下一輪迭代的主題實體。比如剔除 "Evan Jager" 這類上下文相關(guān)性低的實體,確保后續(xù)探索聚焦于高價值線索。
這個迭代過程就像人類 "順著線索找答案":先通過已知信息找到相關(guān)方向,再深入挖掘細節(jié),過濾無效信息,逐步縮小探索范圍。
混合知識推理:整合證據(jù)鏈,動態(tài)判斷終止條件
每一輪異質(zhì)知識探索后,ToG-2 都會進行一次完整的推理評估,確保推理的有效性和效率。
- 首先,LLM 會整合所有已獲取的知識:包括上一輪迭代的線索、當(dāng)前的三元組路徑、排名前 K 的實體及對應(yīng)的上下文文本塊,形成完整的證據(jù)鏈。
- 接著,LLM 會判斷這些證據(jù)是否足夠回答問題:若證據(jù)充分,就基于這些知識生成答案,并明確標注答案的依據(jù)(來自三元組還是文本上下文);若證據(jù)不足,則從現(xiàn)有知識中總結(jié)關(guān)鍵線索(如 "需要找到 Lukas Verzbicas 的出生地信息"),并重構(gòu)優(yōu)化查詢方向,為下一輪探索提供精準指導(dǎo)。
- 整個過程會持續(xù)迭代,直到達到預(yù)設(shè)的最大迭代深度 D,或 LLM 判定已能生成可靠答案。這種動態(tài)終止機制既保證了推理的深度,又避免了過度檢索導(dǎo)致的效率浪費。
關(guān)鍵技術(shù)細節(jié)
1. 知識引導(dǎo)的圖譜檢索:精準拓展推理路徑
圖譜檢索的目標是找到與問題相關(guān)的實體關(guān)聯(lián),為文本檢索提供方向:
- 關(guān)聯(lián)發(fā)現(xiàn)與剪枝:從知識圖譜中提取當(dāng)前主題實體的所有關(guān)聯(lián)關(guān)系,通過LLM篩選出與問題最相關(guān)的關(guān)系(比如在"運動員比賽記錄"問題中,剔除"出生地"這類無關(guān)關(guān)系);
- 實體發(fā)現(xiàn):基于篩選后的關(guān)系,找到關(guān)聯(lián)實體,形成新的候選實體集;
這一步確保了推理路徑不偏離主題,避免無效探索。
2. 上下文增強的文本檢索:深度挖掘?qū)嶓w細節(jié)
文本檢索的目標是為候選實體補充詳細上下文,反過來優(yōu)化實體篩選:
- 實體引導(dǎo)的上下文檢索:將實體的三元組關(guān)系轉(zhuǎn)換為自然語言句子,與文本塊結(jié)合后計算相關(guān)性(比如將"Craig Virgin-記錄-伊利諾伊州越野賽"作為前綴,檢索相關(guān)文本);
- 基于上下文的實體剪枝:根據(jù)文本相關(guān)性得分篩選出最有價值的實體,作為下一輪迭代的主題實體;
這一步解決了知識圖譜信息不完整的問題,為每個實體提供豐富的上下文支撐。
3. 迭代推理機制:動態(tài)調(diào)整探索方向
每輪迭代后,LLM會評估現(xiàn)有知識是否足夠回答問題:
- 若足夠:直接輸出答案,并用三元組和文本證據(jù)支撐;
- 若不足:總結(jié)當(dāng)前線索,重構(gòu)查詢方向,繼續(xù)下一輪探索;
這種動態(tài)調(diào)整機制確保了推理的高效性,避免過度檢索。

03、實驗驗證:性能與效率雙優(yōu)
實驗設(shè)置
- 數(shù)據(jù)集:涵蓋多跳KBQA(WebQSP、QALD10-en)、復(fù)雜文檔QA(AdvHotpotQA)、槽位填充(Zero-Shot RE)、事實核查(FEVER、Creak)六大公開數(shù)據(jù)集,以及自定義的中文金融數(shù)據(jù)集ToG-FinQA;
- 基線方法:包括純LLM方法(Direct、CoT)、文本基RAG(Vanilla RAG)、知識圖譜基RAG(ToG)、混合RAG(CoK、GraphRAG)等;
- 評估指標:精確匹配率(EM)用于問答任務(wù),準確率(Acc.)用于事實核查任務(wù)。
核心實驗結(jié)果
ToG-2在多個開源數(shù)據(jù)集上的主要實驗結(jié)果顯示,其在WebQSP、AdvHotpotQA、QALD-10-en和Zero-Shot RE四個數(shù)據(jù)集上的性能均優(yōu)于所有基準方法。在FEVER數(shù)據(jù)集上,ToG-2與CoK性能相近,而在Creak數(shù)據(jù)集上,ToG-2與ToG性能相近。與原始ToG相比,ToG-2在AdvHotpotQA上實現(xiàn)了16.6%的大幅提升,在其他數(shù)據(jù)集上也表現(xiàn)出顯著改進。這些結(jié)果證明了ToG-2提出的“KG×Text”RAG框架在解決復(fù)雜問題時的優(yōu)勢。
在ToG-FinQA數(shù)據(jù)集上,ToG-2表現(xiàn)出顯著優(yōu)勢,而樸素RAG和CoT則難以應(yīng)對,說明傳統(tǒng)RAG和CoT方法無法有效幫助LLM解決未見過的復(fù)雜領(lǐng)域問題。GraphRAG的正確率僅為6.2%,表明松耦合混合RAG雖能從知識圖譜和文檔中檢索信息,但無法借助圖譜進行多跳上下文檢索與推理。

關(guān)鍵消融實驗
- 骨干LLM影響:ToG-2能夠?qū)⑿阅茌^弱的LLM(如Llama-3-8B、Qwen2-7B)的推理能力提升至性能更強的LLM(如GPT-3.5-turbo)直接推理的水平,同時也能幫助性能較強的LLM(如GPT-3.5-turbo、GPT-4o)進一步提升性能;

- 實體剪枝工具:BGE-Reranker表現(xiàn)最佳,兼顧性能與效率,比LLM排序更適合大規(guī)模檢索;

- 探索參數(shù)選擇:寬度W=3、深度D=3為最優(yōu)配置,過大的搜索范圍會導(dǎo)致邊際效益遞減。表明更大的搜索范圍并非總是更優(yōu),需根據(jù)任務(wù)難度調(diào)整寬度與深度參數(shù)。

效率分析
盡管增加了迭代檢索過程,ToG-2的運行效率仍優(yōu)于同類方法:
- 實體剪枝階段 runtime 僅為ToG的68.7%;
- 每輪推理的LLM調(diào)用次數(shù)更少,平衡了性能與成本。


人工分析
ToG-2在多大程度上利用了三元組關(guān)聯(lián)與上下文信息?分析結(jié)果顯示,“文檔增強型答案”占比最高,約為42%;而“三元組增強型答案”占比最低。這表明,在復(fù)雜問答任務(wù)中,文本上下文通常是最重要的信息來源。三元組關(guān)聯(lián)本身缺乏詳細上下文,難以提供深度洞察,其作用更多體現(xiàn)在宏觀層面的引導(dǎo)。
“雙增強型答案”的占比顯著,說明“三元組關(guān)聯(lián)推理+實體上下文文檔”的組合是一種高效的工作模式。“直接答案”占比16%,表明對于復(fù)雜問題,LLM可直接回答的比例較低,仍高度依賴先進的信息增強流程。


04、實際應(yīng)用價值與展望
ToG-2的緊密耦合混合范式為復(fù)雜知識推理提供了新的解決方案,尤其適用于以下場景:
- 企業(yè)知識庫問答:需整合結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)(如組織架構(gòu)、產(chǎn)品關(guān)系)和非結(jié)構(gòu)化文檔(如手冊、報告)的場景;
- 金融分析:如ToG-FinQA所示,能處理財務(wù)報表、交易關(guān)系等混合知識源的復(fù)雜查詢;
- 智能客服:需要多步推理的復(fù)雜問題解答,如"查詢某產(chǎn)品的供應(yīng)商的合規(guī)資質(zhì)"。
05、總結(jié)
ToG-2 以知識圖譜與文本檢索的緊密耦合為核心突破,精準解決了現(xiàn)有 RAG 方法在復(fù)雜推理任務(wù)中存在的信息檢索深度不足、推理忠實性欠缺等關(guān)鍵痛點。作為無需額外訓(xùn)練的即插即用框架,它展現(xiàn)出極強的適配性 —— 既能將 Llama-3-8B、Qwen2-7B 等小模型的推理能力提升至 GPT-3.5 直接推理的水平,又能為 GPT-3.5、GPT-4o 等大模型賦能,進一步降低幻覺風(fēng)險,讓回答更具可信度與可解釋性。
在 AI 技術(shù)向 “可解釋、高精度、強魯棒” 持續(xù)演進的趨勢下,ToG-2 提出的 KG×Text 混合檢索范式,為 RAG 技術(shù)的發(fā)展提供了極具價值的新思路:未來的檢索增強不應(yīng)只是簡單 “找信息”,而應(yīng)是 “帶著邏輯找信息” 的深度探索過程 —— 通過結(jié)構(gòu)化知識與非結(jié)構(gòu)化文本的動態(tài)協(xié)同,讓推理軌跡更連貫、信息挖掘更透徹。無論是學(xué)術(shù)研究中對復(fù)雜推理機制的探索,還是工業(yè)場景下企業(yè)知識庫問答、金融分析等實際應(yīng)用,ToG-2 都憑借其優(yōu)異的性能表現(xiàn),成為值得重點關(guān)注和落地實踐的方案。
值得一提的是,混合檢索范式已成為 RAG 領(lǐng)域的重要發(fā)展方向,除了 ToG-2,HippoRAG2 等同類工作也在探索結(jié)構(gòu)化與非結(jié)構(gòu)化知識的融合路徑,這些研究共同推動著檢索增強推理技術(shù)不斷走向成熟。
未來優(yōu)化方向
- 動態(tài)參數(shù)調(diào)整:基于問題復(fù)雜度(如單跳 / 多跳、領(lǐng)域熟悉度)自動適配探索寬度(W)與深度(D),避免無效檢索,進一步提升推理效率。
- 知識圖譜補全:利用實體上下文信息動態(tài)補充知識圖譜中缺失的關(guān)系與實體屬性,緩解圖譜不完整性帶來的推理瓶頸,增強模型魯棒性。
- 實時性優(yōu)化:針對大規(guī)模文檔庫場景,優(yōu)化稠密檢索模型的推理速度,或引入增量檢索機制,滿足實時問答、在線客服等低延遲需求。

































