復雜工業文檔RAG也行了:本體+圖譜來搞定
把“工業標準”變成“知識圖譜”,讓大模型真正“看懂”規則,不再靠死記硬背,而是結構化推理。
工業標準文檔為何難以“理解”?
工業標準文檔(如 ASTM、API 等)是制造業、船舶、能源等行業的“技術憲法”,但它們有一個共同特點:
結構復雜、規則密集、條件嵌套、表格繁多。
傳統大模型(LLM)在這些文檔上的表現如何?
方法 | 平均 F1 | 問題 |
LLM-only | 0.016 | 幾乎“看不懂” |
LLM + 全文 | 0.235 | 信息過載 |
傳統 RAG | 0.277 | 檢索不到“條件-結果”邏輯 |
普通 KG-RAG | 0.304 | 無法捕捉表格與規則的語義結構 |
核心挑戰
- 文檔結構復雜:章節嵌套、表格、腳注、例外條款交織
- 邏輯規則密集:大量“如果…那么…”、“當…時…”條件語句
- 數值與單位混雜:英制/公制并存,需統一轉換
- 同義表達多樣:同一概念有多種表述,導致圖譜冗余
三步構建“工業級”知識圖譜
作者提出三階段管道:本體建模 → 原子命題分解 → 知識圖譜構建與精煉
階段1:層次化本體建模
將文檔結構映射為“本體骨架”:
Document
├── Section
│ ├── Subsection
│ │ ├── Subsubsection
│ │ │ ├── Text / Table
│ │ │ │ └── Footnote- 保留文檔的層級語義
- 每個文本單元綁定其“上下文路徑”
圖片
階段2:原子命題本體建模
把復雜句子拆成“原子命題”,再提取三元組:
示例:
“若板厚 ≤ 25 mm 且為 Grade 50,則抗拉強度為 50–75 ksi。”
case1
├── has_condition_AND
│ ├── thickness ≤ 25 mm
│ └── grade = 50
└── has_consequence
└── tensile_strength = 50–75 ksi- 支持表格邏輯(每格=一個 case)
- 支持條件嵌套(AND/OR/THEN)
- 支持數值單位統一(英寸?毫米)
圖片
階段3:知識圖譜精煉
解決“同義不同詞”問題:
原始實體 | 標準化后 |
plate thickness | thickness |
tensile strength | strength |
- Sentence-BERT + HDBSCAN 聚類同義詞
- 剪枝:去自環、去反向邊、去重復三元組 最終圖譜片段(Cypher 風格):
(:Section {title:"6.1 Tensile"})-[:HAS_CHILD]->(:Table)
(:case1)-[:has_condition]->(:thickness ≤ 25 mm)
(:case1)-[:has_consequence]->(:tensile_strength = 50–75)
實驗結果:全面碾壓現有方法
數據集:IndusSpec-QA
標準文檔 | 頁數 | 問題數 | 類型分布 |
ASTM A578/A578M | 5 | 501 | 規則/表格/多跳 |
API 2W | 27 | 384 | 同上 |
ASTM A6/A6M | 63 | 663 | 同上 |
圖片
細分任務
任務 | 本體 KG-RAG vs KG-RAG | 提升 |
表格問答 | 0.306 vs 0.158 | +93.7% |
規則問答 | 0.412 vs 0.367 | +12.3% |
多跳推理 | 0.369 vs 0.231 | +59.7% |
圖片
毒性條款檢測
方法 | F1 | Recall |
最佳基線 | 0.900 | 0.893 |
本體 KG-Retriever | 0.910 | 0.913 |
消融實驗
配置 | F1 | 說明 |
僅 LLM + 文檔 | 0.298 | baseline |
+ 本體結構 | 0.413 | 結構即知識 |
+ KG 三元組 | 0.334 | 語義增強 |
+ 本體 + KG | 0.494 | 1 + 1 > 2 |
圖片
結論與啟示
工業標準不再是 LLM 的“禁地”。
核心貢獻
- 方法論:首個面向工業標準的“本體+KG+RAG”統一框架
- 數據:發布 IndusSpec-QA 與 Toxic Clause 數據集
- 工程:全流程開源(Neo4j + LLM + 提示模板)
- 性能:平均 F1 提升 **64%**,表格任務 +93.7%
未來方向
- 多語言標準支持(ISO、EN、GB、JIS)
- 動態更新機制(標準版本迭代)
- 合規審計助手(自動標注“毒性條款”)
- 多模態擴展(圖紙 + 標準 + 檢測報告)
傳送門:
> 論文地址:[arXiv:2512.08398](https://arxiv.org/pdf/2512.08398)
> 標題:《Ontology-Based Knowledge Graph Framework for Industrial Standard Documents via Hierarchical and Propositional Structuring》
https://anonymous.4open.science/r/ontology_based_kg_paper/README.md































