国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

你想要的GraphRAG的內(nèi)容都在這了

發(fā)布于 2024-7-8 07:48
瀏覽
0收藏

最近微軟終于開源了他的GraphRAG,短短7天就集齊了6.7K Star。那GraphRAG到底是個啥???

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

GraphRAG的論文實際上要比代碼開源早很多,論文應(yīng)是今年4月份在Arxiv上發(fā)表的,但是代碼是這個月1號才正式上傳開源。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

項目開源地址:https://github.com/microsoft/graphrag

項目幫助文檔:https://microsoft.github.io/graphrag/posts/get_started/

1. 為什么要提出GraphRAG?

RAG,又稱檢索增強生成(Retrieval Augumented Generation)。RAG目前已經(jīng)成為大語言模型應(yīng)用的核心組件之一,利用檢索到的內(nèi)容,無論是相似度檢索,還是傳統(tǒng)搜索、搜索引擎來增強大語言模型的外部知識。憑借這一能力,RAG在幫助LLM處理私有化數(shù)據(jù)集上發(fā)揮了巨大的潛力、取得了不俗的表現(xiàn),這些私有化數(shù)據(jù)集對于LLM來說是全新的,比如企業(yè)內(nèi)部文檔、商業(yè)文件、用戶對話記錄等。即使如此,傳統(tǒng)RAG仍然存在很多問題,比如:

  • ? 在處理多信息點時存在困難,比如某個問題的回答需要整合多個文檔、多個片段的信息,提供全新的見解時,傳統(tǒng)RAG往往在回答的全面性方面存在不足。

2.  什么是GraphRAG

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

如上圖所示,GraphRAG包括兩個處理階段,分別是:索引階段和查詢階段。索引階段利用LLM來自動化構(gòu)建知識圖譜,提取出對應(yīng)的節(jié)點(如實體)、邊(如關(guān)系)和協(xié)變量(如主張,claim),然后利用社區(qū)發(fā)現(xiàn)技術(shù)(如Leiden算法)對整個知識圖譜進行子圖劃分,然后自底而上對子圖利用LLM進行摘要、總結(jié)。針對特定查詢,“全局答案(Global Search)”匯總所有與之相關(guān)的社區(qū)摘要最后匯總生成答案。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

2.1 源文檔生成文本片段

與傳統(tǒng)RAG一樣,GraphRAG也需要將源文檔轉(zhuǎn)化為文本片段(TextUnits),這個片段既會被用于圖譜抽取,也會作為知識的引用源,以便追溯回最初的原始文本內(nèi)容。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

在最新開源的GraphRAG代碼里,文本切分大小(以Token數(shù)計算)是可以根據(jù)用戶需求調(diào)整的。默認是300個Token,盡管,作者發(fā)現(xiàn)1200個token大小的文本單元能取得更好效果。但是,越大的文本塊大小會導致輸出精度降低、召回率降低、并且降低參考文本的可讀性;不過文本塊尺寸越大,可以減少LLM調(diào)用次數(shù),整個處理過程速度可以更快。

下圖展示了,在相同的提取循環(huán)次數(shù)下,提取的實體數(shù)會隨著文檔片段的大小增加。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

文本單元的分組設(shè)置同樣可以根據(jù)用戶需求定制。默認GraphRAG會按照文檔邊界來對齊單元,確保文檔與文本單元之間保持嚴格的一對一關(guān)聯(lián)。在少數(shù)情況下(特別是非常短的文檔),比如推文、聊天記錄這些情況下,會組合多個文檔構(gòu)成一個有意義的分析單元。

2.2 知識圖譜構(gòu)建

接下來的步驟就是對于每一段文本片段,利用LLM從中提取實體、關(guān)系、主張(Claim)。下圖是GraphRAG里面用于知識圖譜構(gòu)建的提示詞。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

因為篇幅原因,這里不展示全部提示詞,大家可以自行參考鏈接:

./prompt_tune/template/entity_extraction.py

2.3 元素實例轉(zhuǎn)化為元素摘要

通過LLM對文檔中的實體、關(guān)系、主張進行提取,本質(zhì)上是對文檔的一種抽象式摘要。同名同類型的實體將通過整合它們的描述形成統(tǒng)一的數(shù)組;同樣的,相同起點和終點的關(guān)系也將通過整合描述后進行合并。

圖譜抽取的最后一步是對代表同一現(xiàn)實世界實體但名稱不同的實體進行辨識。由于此過程通過LLM執(zhí)行,希望在不丟失信息的前提下,采取一種審慎且非破壞性的方法。

不過,目前的實體辨識實現(xiàn)是具有破壞性的。將一系列實體提供給LLM,并要求其判斷哪些實體應(yīng)該合并。然后,這些實體將被合并為單一實體,并且它們的關(guān)系也會相應(yīng)更新。

GraphRAG正在積極探索其他實體辨識技術(shù)。在不久的將來,實體辨識將通過在不同實體變體間建立一條邊來執(zhí)行,表明這些實體已經(jīng)被索引引擎辨識。這將使用戶能夠撤銷索引端的辨識,并采用類似過程添加自己的非破壞性辨識。

2.4 元素概要至圖譜社群

上一步驟所構(gòu)建的索引可以視作一個均勻無向加權(quán)圖,實體節(jié)點通過關(guān)系邊相連,邊的權(quán)重反映了所檢測到關(guān)系實例的歸一化數(shù)量。基于此類圖,可以應(yīng)用多種社群發(fā)現(xiàn)算法,將圖遞歸劃分為多個社群,這些社群內(nèi)的節(jié)點間的聯(lián)系比與圖外其他節(jié)點更為緊密。在GraphRAG中,作者選用了Leiden算法,原因在于其能夠有效地挖掘大規(guī)模圖譜的層級社群結(jié)構(gòu)。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

該層級結(jié)構(gòu)的每一層都提供了一種劃分方式,以互斥且全面覆蓋的方式呈現(xiàn)圖中所有節(jié)點,為全局性摘要的分治策略提供了可能。

2.5 圖譜社群至社群概要

接下來利用社群(知識圖譜子圖)數(shù)據(jù),利用LLM為每個社群總結(jié)為一個摘要式報告。這有助于在圖譜的不同細節(jié)層次上獲得宏觀的理解。比如,若社區(qū)A屬于最頂層,將獲得整個圖譜的綜合報告;若社區(qū)屬于較低層次,則報告將聚焦于一個特定的局部群體。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

可以通過提示詞里的示例,看一下這個知識圖譜報告長什么樣子:

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

通過LLM對社區(qū)報告進行濃縮、精簡,然后將這些報告內(nèi)容通過embedding模型進行向量化,這里與傳統(tǒng)的RAG類似。

所以小編認為,在整個GraphRAG里面,知識圖譜提取和這一步圖譜子圖摘要式總結(jié)是最為重要和特殊的。

2.6 社群概要至社群解答,再到全局解答

針對用戶的提問,社群的層接結(jié)構(gòu)特性意味著可以利用不同層級的社群摘要來回答問題。在特定的社群中,用戶的提問全局答復(fù)按以下過程生成:

  • ? 準備社群概要。將社群概要隨機混洗,并劃分為預(yù)設(shè)的令牌大小的區(qū)塊。這樣做確保了相關(guān)信息均勻分布,而不是聚集(可能遺失)在單一的上下文窗口中。
  • ? 映射社群解答。并行生成每個區(qū)塊的中間答案。同時要求LLM為生成的答案打分,分數(shù)范圍從0到100,以指示答案對目標問題的幫助程度。得分為0的答案將被排除。
  • ? 匯總為全局答案。根據(jù)有用性得分,將中間社群答案降序排列,并逐步整合進新的上下文窗口,直至達到令牌限制。這一最終上下文將用于生成并返回給用戶的全局答案。

3. 對比分析

作者對比了六種配置的RAG,包括利用四層圖社群結(jié)構(gòu)的GraphRAG(C0、C1、C2、C3),以及將Map-Reduce應(yīng)用于原始文本的文本摘要方法(TS)、語義搜索RAG(SS)。

C0:利用根層級的社群概要來響應(yīng)用戶查詢,數(shù)量最為稀少。

C1:利用高級別社群概要解答問題,這些是C0的子社群,如果存在的話;否則是C0社群的下投影。

C2:利用中層級社群概要來解答問題,這些是C1的子社群,如果存在的話;否則是C1社群的下投影。

C3:利用底層社群概要來解答問題,數(shù)量最多,這些是C2的子社群,如果存在的話;否則是C2社群的下投影。

TS:與GraphRAG方法相似,只是將原始文本(而非社群概要)隨機分配并分塊,用于map-reduce摘要階段。

SS:一種樸素RAG的實現(xiàn),檢索文本塊并添加至上下文窗口,直至達到設(shè)定的令牌限制。

3.1 全局方法相較于樸素RAG

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

如上圖,四種度量標準下每組125個問題(每組問題均重復(fù)五次并取平均值)的勝率對比圖。每一行代表的條件與每一列的條件相比較,勝者以粗體字標出。自我勝率未作計算,以預(yù)期的50%作為參考線。

在全面性和多樣性上,GraphRAG的所有條件均超越了樸素RAG。特別是條件C1至C3,在答案的全面性和多樣性方面相較于TS(不依賴圖索引的全局文本摘要)顯示出了小幅提升。

全局方法在全面性和多樣性兩個指標上,無論是播客還是新聞數(shù)據(jù)集,均持續(xù)超越了樸素RAG(SS)方法。具體來說,全局方法在播客文稿的全面性勝率介于72%到83%之間,在新聞文章上的勝率則在72%到80%之間,多樣性勝率分別為75%到82%和62%到71%。此外,我們以直接性作為有效性的檢驗,結(jié)果符合預(yù)期,即樸素RAG在所有對比中提供了最直接的回答。

3.2 社群摘要與原始文本的對比

對比社區(qū)概要和原始文本,社區(qū)概要在提升答案的全面性和多樣性方面,普遍帶來了雖小但穩(wěn)定的改進,根級概要不在此列。

  • ? 在播客數(shù)據(jù)集中,中級社區(qū)概要的全面性勝率為57%
  • ? 新聞數(shù)據(jù)集中,低級社區(qū)概要的全面性勝率為64%

多樣性方面:

  • ? 播客中級社區(qū)概要的勝率為57%,新聞低級社區(qū)概要則為60%。

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

上表展示了GraphRAG相較于原始文本摘要在可擴展性上的優(yōu)勢:針對低級社區(qū)概要(C3),GraphRAG所需的上下文Token數(shù)減少了26-33%;而針對根級社區(qū)概要(C0),令牌需求量更是減少了97%以上。

與其它全局方法相比,盡管性能略有降低,根級GraphRAG依然是進行迭代問答的高效方法,這種問答是感知活動的特點,同時在全面性(勝率72%)和多樣性(勝率62%)上仍超越了樸素RAG。

3.3 回答效果展示

你想要的GraphRAG的內(nèi)容都在這了-AI.x社區(qū)圖片

上圖第二、三行分別展示了GraphRAG和樸素RAG回答的效果對比,第四行展示了使用LLM對這兩個回答做出的評估結(jié)果(四個評估維度)。

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产精品99视频| 欧美国产精品日韩| 欧美日韩国产观看视频| 日韩av在线精品| 亚洲91网站| 亚洲综合日韩在线| 日本vs亚洲vs韩国一区三区二区 | 欧美freesex交免费视频| 久久久久九九九| 91小视频免费看| 亚洲成人影院在线观看| 亚洲精品美女网站| 美日韩中文字幕| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 欧美知名女优| 精品99久久久久久| av一级亚洲| 国产一区高清视频| 久久久久久久久99精品| a黄色在线观看| 欧美日韩成人精品| 亚洲主播在线| 成人影院在线观看视频| 日韩欧美123| 国产一区二区三区站长工具| 天堂资源在线亚洲资源| 亚洲三级电影全部在线观看高清| 美女网站视频在线| 国产情人节一区| 国产成人免费视频网站 | 337p亚洲精品色噜噜噜| 免费精品一区| 免费看污久久久| 伊人婷婷欧美激情| 国产乱子精品一区二区在线观看| 国产日韩一区欧美| 亚洲人成网站影音先锋播放| 午夜精品成人av| 国产三区精品| 亚洲午夜一二三区视频| 永久免费观看精品视频| 欧美一区二区福利| 精品福利在线观看| 亚洲午夜精品| 50度灰在线观看| 91麻豆精品国产自产在线观看一区| 欧美人与动xxxxz0oz| 精品久久久久久无码中文野结衣| 欧美色综合影院| 精品一区二区三区在线| 草草草在线视频| 亚洲一区av在线播放| 一区二区三区四区五区精品视频| 97在线观看免费高清视频| 欧美国产日韩一区二区| 国产精品99久久久久| 9191在线播放| 国产日韩在线一区二区三区| 亚洲国产日韩在线一区模特| aaa国产精品视频| 中文字幕无码精品亚洲资源网久久| 欧美一级一区二区| 你懂的一区二区| 免费高清视频日韩| 久久99久久99精品免观看粉嫩| 国产精品1024| 黄色在线免费观看网站| 日本精品二区| 欧美一级日韩免费不卡| 在线精品观看| 成人午夜电影在线观看| 99c视频在线| 日韩欧美在线观看视频| 99国产精品一区二区| 国产乱子视频| 韩国19禁主播vip福利视频| 99精品久久免费看蜜臀剧情介绍| 超碰aⅴ人人做人人爽欧美| 中文字幕一区二区三区最新 | 亚洲欧美日本国产有色 | 日韩欧美在线电影| 91精品在线一区二区| 羞羞答答国产精品www一本| 国产欧美久久久久久久久| 国产一区二区三区四区五区在线| 欧美性猛交xxxx乱大交极品| 牛夜精品久久久久久久99黑人| 日韩精品系列| 国产精品一级久久久| 欧美另类久久久品| 日韩黄色免费网站| 超碰91在线观看| 国产精品国产三级国产专区51| 亚洲欧美激情视频| va亚洲va日韩不卡在线观看| 国产免费av国片精品草莓男男| 欧美大尺度做爰床戏| 日韩av大片免费看| 日韩欧美aaa| 老**午夜毛片一区二区三区| 美女高潮在线观看| 国产主播在线看| 欧洲中文字幕国产精品 | av大全在线| 亚洲图色在线| 伊人久久免费视频| 国产女人18水真多18精品一级做| 亚洲国产国产| 懂色av中文在线| 精品久久蜜桃| 亚洲精品美女久久久| 91在线视频18| 免费欧美激情| av色图一区| 在线观看三级网站| 国内精久久久久久久久久人| 亚洲大片免费看| 新67194成人永久网站| 国产福利91精品一区二区| 国产精品涩涩涩视频网站| 国产精品美乳一区二区免费| 欧美日韩精品欧美日韩精品一综合| 欧美a一区二区| 美女国产精品久久久| 在线观看你懂| 中文字幕99| 欧美亚洲在线播放| 欧美日韩精品一区二区三区| 国产成人av一区二区三区在线| 美女精品视频在线| 免费在线一级视频| 久久福利一区二区| 国产精品激情av电影在线观看| 欧美久久婷婷综合色| 99久久婷婷国产综合精品| 久久视频精品| 成人福利av| 最新国产在线| 污污污污污污www网站免费| 97精品超碰一区二区三区| 久久久激情视频| 高清在线观看日韩| 国产在线精品免费av| 国产一区二区三区视频在线播放| 女人天堂亚洲aⅴ在线观看| 成人小电影网站| 你懂得在线网址| 国产成人一区二区三区电影| 欧美少妇xxx| 久久蜜桃av一区二区天堂| 欧美一区不卡| 在线免费成人| 777电影在线观看| 日韩手机在线观看视频| av在线不卡观看| 日韩视频中文字幕| 欧美色倩网站大全免费| 久久久www免费人成精品| 国产欧美另类| 亚洲春色h网| 松下纱荣子在线观看| 中文在线а√在线| 日韩中文字幕在线视频观看 | 欧美va在线播放| 亚洲素人一区二区| 免费在线一区观看| 欧美呦呦网站| 福利精品一区| 欧美美女18p| 亚洲在线网站| 欧美日韩国产高清电影| 日韩中文影院| av在线天堂播放| 国产宾馆自拍| 116极品美女午夜一级| 欧美精品欧美精品| 国产精品网站视频| 久久夜色精品国产| 91精品国产色综合久久不卡电影 | 国产午夜精品一区二区三区欧美 | 福利视频在线播放| 国产精品v日韩精品v在线观看| 一区二区视频国产| 97se亚洲综合| 日本亚洲欧洲色α| 久久精品视频亚洲| 欧美videossexotv100| 精品久久久中文| 综合电影一区二区三区| av资源网一区| 国产福利91精品一区二区三区| 国产女优一区| 九九精品在线播放| 大西瓜av在线| 三级视频在线| 欧美三级伦理在线| 中文字幕中文字幕在线中一区高清 | 祥仔av免费一区二区三区四区| 色网在线观看| 中文字幕在线视频区|