NIPS 2025 RAG 新突破:超圖驅動 HyperGraphRAG,橫掃五大領域

在知識密集型任務中,檢索增強生成(RAG)已成為提升大模型事實準確性的核心技術。但傳統RAG要么忽視實體關聯,要么受限于二元關系,難以應對現實世界中復雜的多實體交互場景。來自北郵、南洋理工、新加坡國立等團隊的研究人員,在2025年NIPS會議上提出了HyperGraphRAG——基于超圖結構的RAG方法,通過超邊直接建模n元關系,解決了傳統方法的知識表示瓶頸。
論文地址:https://arxiv.org/pdf/2503.21322
項目地址:https://github.com/LHRLAB/HyperGraphRAG

01、核心痛點:傳統RAG的兩大局限
無論是標準RAG還是基于圖的RAG,都存在難以逾越的知識表示缺陷:
1. 標準RAG:只見樹木不見森林
標準RAG采用基于文本塊(chunk)的檢索方式,將文檔分割成固定長度的片段后,通過向量相似度匹配相關內容。這種方式完全忽略了實體之間的內在關聯,比如在醫學知識中,"男性"、"高血壓患者"、"血清肌酐115-133μmol/L"、"輕度肌酐升高"之間的關聯關系被割裂,導致檢索到的知識碎片化。
2. 基于圖的RAG:困于二元關系牢籠
GraphRAG、LightRAG等后續改進方法,通過構建"實體-關系-實體"的二元圖來捕捉關聯,但普通圖的每條邊只能連接兩個實體,無法直接表示n元關系(n≥2)。例如要表示"男性高血壓患者血清肌酐水平在115-133μmol/L之間被診斷為輕度血清肌酐升高"這一事實,必須拆解為多個二元關系三元組,導致知識表示稀疏、信息丟失。
超圖的破局之道
超圖(Hypergraph)通過"超邊"(Hyperedge)實現多實體直接連接,一條超邊可關聯任意數量的實體,恰好完美適配現實世界中普遍存在的n元關系。HyperGraphRAG正是利用這一特性,構建超圖結構化知識,為RAG提供更完整、更精準的知識支撐。

02、方法解析:HyperGraphRAG核心步驟
HyperGraphRAG構建了"知識超圖構建-超圖檢索-超圖引導生成"的完整 pipeline,每個環節都圍繞n元關系建模展開:

知識超圖構建:精準捕獲n元關系
知識超圖構建是整個方法的基礎,核心目標是從文本中提取n元關系并結構化存儲,包含三個關鍵步驟:
(1)n元關系抽取
命題1:超圖結構的知識表示比二元關系的知識表示更具完整性。
設計專門的提示詞引導LLM(GPT-4o-mini)完成端到端的知識片段分割與實體識別,輸出n元關系事實
:
- 超邊
:將文本解析為獨立知識片段,每個片段作為一條超邊
,包含自然語言描述和置信度分數 - 實體
:從每條超邊中提取實體集合,每個實體
包含名稱、類型、解釋和置信度分數(包含名稱、類型、解釋和置信度分數
例如上述醫學事實會被直接表示為:超邊=(高血壓患者, 男性, 血清肌酐115-133μmol/L, 輕度血清肌酐升高),無需拆解,完整保留知識語義。
(2)二分超圖存儲
命題2:二分圖能夠無損失地保留并查詢知識超圖。
為了兼容現有圖數據庫并保障查詢效率,將知識超圖
轉換為二分圖
存儲:

- 節點集合
:合并實體集合 V 和超邊集合
- 邊集合
:建立超邊與其實體的關聯關系
這種存儲方式既能無損保留超圖結構,又能利用普通圖數據庫的高效查詢能力,還支持增量更新。
(3)向量表示存儲
采用同一嵌入模型將實體和超邊轉換為向量,存儲在獨立的向量庫中,確保實體、超邊與用戶問題處于同一向量空間,為后續語義檢索奠定基礎。
超圖檢索策略:精準匹配多實體關聯
針對用戶問題,設計了"實體+超邊"的雙軌檢索策略,確保檢索知識的精準性和完整性:
(1)實體檢索
先從用戶問題中提取關鍵實體,通過余弦相似度在實體向量庫中檢索最相關的實體,檢索分數由向量相似度與實體置信度分數加權得到,篩選出超過閾值
的Top-k實體。
(2)超邊檢索
直接對用戶問題進行向量編碼,在超邊向量庫中檢索語義相關的超邊,同樣通過相似度與超邊置信度分數加權排序,篩選出超過閾值
的Top-p超邊。
超圖引導生成:融合結構化與非結構化知識
命題3:與基于普通二元圖的方法相比,在知識超圖上進行知識檢索可提升檢索效率,進而改善生成質量。
為了充分利用檢索到的知識,設計了雙向擴展與混合融合機制:
(1)超圖知識融合
采用雙向擴展策略補全知識:
- 從檢索到的實體擴展關聯超邊
- 從檢索到的超邊擴展關聯實體
最終合并得到完整的 n 元關系事實集合
,確保不遺漏關鍵關聯信息。
(2)生成增強
采用混合RAG融合機制:將超圖知識
與傳統文本塊檢索結果
融合,形成最終知識輸入
,通過統一提示詞引導LLM生成回答,既保證知識的結構化,又兼顧文本的流暢性。
03、實驗驗證:多維度、多領域全面領先
研究團隊在醫學、農業、計算機科學、法律、混合領域五大場景開展實驗,圍繞6個核心研究問題進行驗證,結果全面超越現有方法。
評估指標:F1(回答準確性)、R-S(檢索相似度)、G-E(生成質量,7維度LLM評判)。
數據集:醫學領域采用國際高血壓指南,其余領域來自 UltraDomain,包含二元來源和 n 元來源兩類問題。
整體性能對比(RQ1)
HyperGraphRAG在所有領域、所有指標上均排名第一,
方法間整體對比:在F1、R-S和G-E三項指標上,HyperGraphRAG的性能始終優于所有基線方法。
不同來源類型下的對比:現有基于圖的RAG基線方法依賴二元關系圖進行知識建模,導致知識碎片化、檢索稀疏化;而HyperGraphRAG無論是在二元來源還是n元來源的問題設置下,HyperGraphRAG均保持了顯著的性能優勢。
不同領域下的對比:HyperGraphRAG在各領域的性能提升具有一致性。尤其在醫學和法律領域,F1分數提升超過7,充分體現了其在高度結構化知識場景的優勢。

核心組件有效性(RQ2)
消融實驗驗證了各組件的必要性:
- 移除實體檢索(w/o ER):F1從35.4降至29.8
- 移除超邊檢索(w/o HR):F1從35.4降至26.4(影響最大)
- 移除文本塊融合(w/o CR):F1從35.4降至29.2
這表明超邊檢索是捕獲n元關系的核心,而實體檢索和文本塊融合則分別保障了檢索精準性和生成流暢性。

超圖結構知識表示有效性(RQ3)
知識結構可視化:與以往基于圖的RAG方法僅能建模二元關系相比,HyperGraphRAG通過超邊連接多個實體,形成了關聯性更強、表達能力更豐富的網絡結構。
統計分析:在所有領域中,HyperGraphRAG的知識表示能力均優于GraphRAG和LightRAG。以計算機科學領域為例,HyperGraphRAG構建了26,902條超邊,而GraphRAG僅包含930個社區,LightRAG僅包含5,632條關系——這一對比充分展示了HyperGraphRAG在知識捕捉能力上的優勢。

檢索效率(RQ4)
檢索超邊數量的影響:隨著top-k超邊數量的增加,F1、R-S和G-E三項指標均有所提升,當k值達到60左右時,性能逐漸趨于飽和。這表明HyperGraphRAG僅需有限的輸入,就能實現優異的檢索質量。
檢索長度限制下的性能:即使在檢索長度受限的情況下,HyperGraphRAG的性能仍優于所有基于二元圖的RAG方法。這一結果驗證了n元表示的高效性,同時也凸顯了二元結構在語義上的固有損失。

生成質量(RQ5)
在正確性(64.8)、相關性(66.0)、事實性(64.2)三大關鍵維度顯著領先,各維度性能均衡,整體生成質量得分61.5,遠超所有基線

時間與成本開銷(RQ6)
在保證性能的同時,HyperGraphRAG的效率和成本也具有實用價值:
- 構建階段:每1k token耗時3.084秒,成本0.0063美元,介于HippoRAG2和GraphRAG之間
- 生成階段:每查詢耗時0.256秒,每1k查詢成本3.184美元,低于PathRAG和LightRAG,僅略高于StandardRAG

典型案例分析
以復雜醫學問題為例:"哪種腎去神經支配術在多項隨機假手術對照試驗中顯示出24小時降壓效果,尤其適用于難治性高血壓?"
HyperGraphRAG準確識別出"超聲腎去神經支配術"為答案,在正確性、事實性、專業性上均得滿分(10分),而其他基線要么混淆技術類型,要么答案模糊。這充分證明了超圖結構能夠更好地整合多實體臨床知識,支持精準的專業級推理。

04、總結
HyperGraphRAG 把“超邊”引入 RAG,用一條邊即可連接任意數量實體,從而把 n 元關系整體保留,解決了傳統二元圖只能“拆句子、丟信息”的痛點;在醫學、法律、工程等高度結構化的場景中,F1、檢索相似度和生成質量七維指標都達到了新高。
然而,這些實驗全部集中在領域封閉、術語規范、關系明確的專業語料上,并未在 HotpotQA、Musique 這類通用多跳問答數據集上與 HippoRAG2、ToG2 等主流方法正面較量。一旦知識源切換到開放域新聞、社交媒體或低資源領域,實體邊界模糊、關系復雜,端到端抽取的誤差會被超圖結構成倍放大,導致噪聲級聯,最終性能與魯棒性仍是未知數。
更關鍵的一點,超圖的高階表達能力在靜態場景下是優勢,而超圖結構本身對知識更新高度敏感,在動態場景里存在一個“牽一發而動全身”的脆弱點:一條超邊往往打包了“事件-實體-屬性”的完整 n 元組,任一元素失效(如藥品適應癥被撤回、法律條款修訂)都需整條超邊重抽、重打分、重嵌入,無法像二元圖那樣局部刪改,對知識漂移的魯棒性仍需長期落地檢驗。

























