国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

RAG 中的語義分塊:實(shí)現(xiàn)更優(yōu)的上下文檢索

人工智能
語義分塊是RAG技術(shù)中不可或缺的關(guān)鍵環(huán)節(jié)。它通過優(yōu)化文檔的分割方式,提升了上下文檢索的效果,進(jìn)而顯著提高了RAG系統(tǒng)的性能。

檢索增強(qiáng)生成(RAG)技術(shù)異軍突起,席卷了整個(gè)大語言模型領(lǐng)域。通過將大語言模型(LLMs)的強(qiáng)大能力與外部知識檢索相結(jié)合,RAG使得模型能夠生成準(zhǔn)確且有依據(jù)的回復(fù),即便在專業(yè)領(lǐng)域也不例外。在每一個(gè)表現(xiàn)卓越的RAG流程背后,都有一個(gè)默默發(fā)揮關(guān)鍵作用的 “英雄”:分塊技術(shù),尤其是語義分塊。

RAG生態(tài)系統(tǒng)與分塊的作用

RAG代表了人工智能系統(tǒng)獲取和利用知識方式的重大變革。傳統(tǒng)的大語言模型僅依賴于其預(yù)先訓(xùn)練的知識,這可能存在局限性或時(shí)效性問題。RAG通過在生成過程中從外部資源(如數(shù)據(jù)庫、文檔或互聯(lián)網(wǎng))檢索相關(guān)信息,很好地解決了這一局限性。這些外部知識就像補(bǔ)充彈藥,極大地?cái)U(kuò)展了模型的知識邊界,使其能夠應(yīng)對各種復(fù)雜問題。

在RAG流程中,分塊是至關(guān)重要的一環(huán)。分塊指的是在對文檔進(jìn)行嵌入和索引之前,將其分割成較小單元的過程。這些分塊在查詢時(shí)被檢索出來,并輸入到大語言模型中用于生成回復(fù)。然而,分塊并非簡單的切割操作,其方式直接影響著RAG系統(tǒng)的性能。如果分塊過大,它們可能無法適配模型的上下文窗口,導(dǎo)致信息丟失;而如果分塊過小或分割不當(dāng),語義信息會被破壞,使模型難以理解和處理,進(jìn)而影響最終回復(fù)的質(zhì)量。

分塊面臨的挑戰(zhàn)

以一段醫(yī)學(xué)文章為例,假設(shè)內(nèi)容如下:“蝙蝠俠主要在哥譚市活動,這是一個(gè)犯罪猖獗、腐敗橫行的大都市。他的宿敵小丑在混亂和不可預(yù)測中如魚得水。盡管布魯斯·韋恩資助了哥譚市的許多社會項(xiàng)目,但他仍在為自己作為億萬富翁和義警的雙重身份而苦苦掙扎。” 如果使用簡單的分塊方法,可能會將其分割為:

  • 分塊1:“蝙蝠俠主要在哥譚市活動,這是一個(gè)犯罪猖獗的”
  • 分塊2:“大都市,腐敗橫行。他的宿敵小丑,”
  • 分塊3:“在混亂和不可預(yù)測中如魚得水。盡管布魯斯·韋恩”
  • 分塊4:“資助了哥譚市的許多社會項(xiàng)目,但他仍在為......”

此時(shí),若用戶提問:“是什么讓蝙蝠俠的生活如此矛盾?” 檢索器可能會隨機(jī)獲取到句子中間的某個(gè)分塊,或者遺漏關(guān)于他雙重身份的關(guān)鍵信息,進(jìn)而導(dǎo)致給出的答案籠統(tǒng)或錯(cuò)誤。這清晰地展現(xiàn)了不恰當(dāng)分塊帶來的問題,突出了語義分塊的重要性和必要性。

語義分塊詳解

語義分塊旨在以一種保留每個(gè)單元有意義、自包含上下文的方式分割文檔。它尊重自然的邊界,比如段落、句子或主題,確保每個(gè)分塊都能獨(dú)立回答相關(guān)的查詢。實(shí)現(xiàn)語義分塊通常涉及以下幾個(gè)關(guān)鍵步驟:

  1. 句子邊界檢測

準(zhǔn)確識別句子的起止位置,這是保留語義完整性的基礎(chǔ)。因?yàn)榫渥邮潜磉_(dá)完整思想的基本語言單位,正確劃分句子邊界有助于將相關(guān)信息歸為一組。

  1. 主題建模或基于嵌入的分割

主題建模可以分析文檔內(nèi)容,將具有相似主題的部分劃分為一個(gè)分塊。基于嵌入的分割則利用詞或句子的嵌入向量,通過計(jì)算向量之間的相似度來確定分割點(diǎn),在語義發(fā)生變化的地方進(jìn)行分割,使每個(gè)分塊內(nèi)的語義更加連貫。

  1. 使用重疊窗口保留上下文

為了避免在分割過程中丟失上下文信息,通常會采用重疊窗口的方法。即相鄰分塊之間有一定比例的重疊內(nèi)容,這樣可以確保在檢索和處理分塊時(shí),前后信息能夠相互關(guān)聯(lián),增強(qiáng)模型對上下文的理解。

分塊策略對比

常見的分塊策略有多種,從簡單到語義化程度高依次介紹如下:

  • 固定大小分塊(簡單方法)

在Python的LangChain庫中,可以使用 CharacterTextSplitter 進(jìn)行固定大小分塊。示例代碼如下:

from langchain.text_splitter import CharacterTextSplitter
splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = splitter.split_text(document)

這種方法的優(yōu)點(diǎn)是簡單直接,易于實(shí)現(xiàn)。但它存在明顯的缺陷,可能會在句子中間進(jìn)行分割,破壞句子的完整性和上下文連貫性,影響語義的表達(dá)。

  • 基于句子的分塊

借助 NLTKTextSplitter 可以實(shí)現(xiàn)基于句子的分塊,示例代碼為:

from langchain.text_splitter import NLTKTextSplitter
splitter = NLTKTextSplitter(chunk_size=3, chunk_overlap=1)
chunks = splitter.split_text(document)
  • 該方法能夠保留句子邊界,一定程度上保證了語義的完整性。然而,它可能仍然會在分塊過程中分割主題,導(dǎo)致一個(gè)主題被分散到多個(gè)分塊中,不利于模型對完整主題的理解和處理。
  • 遞歸分塊

RecursiveCharacterTextSplitter 提供了遞歸分塊的功能,代碼如下:

from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
 separators=["\n\n", "\n", ".", " ", ""],
 chunk_size=500,
 chunk_overlap=100
)
chunks = splitter.split_text(document)

遞歸分塊嘗試在較大的邊界(如段落、句子、單詞)上進(jìn)行分割,能夠在分塊長度和語義保持之間取得較好的平衡。不過,它可能仍然需要根據(jù)具體應(yīng)用場景進(jìn)行微調(diào),以達(dá)到最佳效果。

  • 基于嵌入的語義分塊(高級方法)

這種技術(shù)利用句子嵌入來在語義發(fā)生變化的地方分割文本。示例代碼如下: 

from sentence_transformers import SentenceTransformer, util
import nltk
model = SentenceTransformer('all-MiniLM-L6-v2')
sentences = nltk.sent_tokenize(document)
embeddings = model.encode(sentences)
similarities = [util.cos_sim(embeddings[i], embeddings[i+1]) for i in range(len(embeddings)-1)]
chunks = []
chunk = [sentences[0]]
for i, score in enumerate(similarities):
    if score < 0.6:  # 可根據(jù)需要調(diào)整閾值
        chunks.append(" ".join(chunk))
        chunk = []
    chunk.append(sentences[i+1])
if chunk:
    chunks.append(" ".join(chunk))

基于嵌入的語義分塊能夠真正實(shí)現(xiàn)語義層面的分割,對于包含豐富主題的文檔效果顯著。但它的計(jì)算復(fù)雜度較高,處理速度相對較慢,實(shí)現(xiàn)過程也更為復(fù)雜。

評估分塊質(zhì)量

分塊策略的優(yōu)劣直接影響RAG系統(tǒng)下游的各個(gè)環(huán)節(jié),因此評估分塊質(zhì)量至關(guān)重要。可以從以下幾個(gè)方面進(jìn)行評估:

指標(biāo)

  • 與真實(shí)情況的分塊重疊度(如使用Recall@k指標(biāo))通過計(jì)算分塊與理想分塊(真實(shí)情況)的重疊比例,衡量分塊的準(zhǔn)確性。重疊度越高,說明分塊結(jié)果越接近理想狀態(tài),能夠更好地保留相關(guān)信息。
  • 嵌入一致性(分塊內(nèi)相似度應(yīng)較高)評估分塊內(nèi)文本的嵌入向量之間的相似度。如果分塊內(nèi)的文本相似度高,意味著分塊內(nèi)的語義連貫性好,模型更容易理解和處理。
  • 模型回答準(zhǔn)確率(端到端RAG評估)通過實(shí)際輸入查詢,觀察模型基于分塊生成的回答的準(zhǔn)確率。這是最直接評估分塊策略對RAG系統(tǒng)整體性能影響的指標(biāo)。

工具

  • LangChain RAG評估器LangChain庫提供的評估器可以方便地對RAG系統(tǒng)進(jìn)行評估,包括對分塊效果的評估。
  • Ragas這是一個(gè)專門用于評估RAG系統(tǒng)的工具包,能夠從多個(gè)維度對分塊質(zhì)量進(jìn)行分析。
  • 帶有真實(shí)相關(guān)性標(biāo)簽的自定義問答對通過創(chuàng)建自定義的問答對,并標(biāo)注問題與答案之間的相關(guān)性,可以針對性地評估分塊策略在特定任務(wù)上的表現(xiàn)。

最佳實(shí)踐

為了實(shí)現(xiàn)有效的語義分塊,需要遵循以下最佳實(shí)踐:

  1. 優(yōu)先選擇基于句子或語義感知的分塊方式

這種方式能夠更好地保留語義信息,提高模型對上下文的理解能力。

  1. 合理使用分塊重疊

通常,50 - 100個(gè)標(biāo)記的重疊是比較合適的。分塊重疊可以確保相鄰分塊之間的信息連貫性,避免因分割導(dǎo)致的上下文丟失。

  1. 根據(jù)具體應(yīng)用場景調(diào)整分塊大小

不同類型的文檔(如法律文檔和推文)對分塊大小的要求不同。法律文檔通常內(nèi)容復(fù)雜、信息量大,可能需要較大的分塊;而推文內(nèi)容簡短,分塊大小應(yīng)相應(yīng)減小。

  1. 利用元數(shù)據(jù)(如標(biāo)題、副標(biāo)題)進(jìn)行層次感知分塊

元數(shù)據(jù)可以提供文檔的結(jié)構(gòu)信息,幫助在分塊時(shí)更好地考慮文檔的層次結(jié)構(gòu),使分塊結(jié)果更符合邏輯。

  1. 持續(xù)評估、迭代和重新訓(xùn)練檢索器

隨著數(shù)據(jù)的變化和應(yīng)用場景的調(diào)整,分塊策略可能需要不斷優(yōu)化。通過持續(xù)評估分塊質(zhì)量,對檢索器進(jìn)行迭代和重新訓(xùn)練,可以確保RAG系統(tǒng)始終保持良好的性能。

語義分塊在現(xiàn)實(shí)中的巨大影響

語義分塊對于實(shí)際的RAG系統(tǒng)來說至關(guān)重要,甚至可以決定系統(tǒng)的成敗。以一個(gè)企業(yè)應(yīng)用案例(法律合同問答機(jī)器人)為例,從簡單分塊切換到遞歸 + 語義分塊后,取得了顯著的效果:

  1. 答案準(zhǔn)確率提高23%

語義分塊使得機(jī)器人能夠更準(zhǔn)確地理解問題的上下文,從合同文檔中檢索到更相關(guān)的信息,從而生成更準(zhǔn)確的答案。

  1. 幻覺現(xiàn)象減少41%

在生成式模型中,幻覺是一個(gè)常見問題,即模型生成看似合理但實(shí)際上錯(cuò)誤的信息。語義分塊通過提供更準(zhǔn)確的上下文,有效減少了這種現(xiàn)象的發(fā)生。

  1. 檢索器命中率從62% 提升到87%

語義分塊優(yōu)化了分塊的內(nèi)容和結(jié)構(gòu),使檢索器能夠更精準(zhǔn)地匹配用戶的查詢,大大提高了命中率。

語義分塊是RAG技術(shù)中不可或缺的關(guān)鍵環(huán)節(jié)。它通過優(yōu)化文檔的分割方式,提升了上下文檢索的效果,進(jìn)而顯著提高了RAG系統(tǒng)的性能。隨著人工智能技術(shù)的不斷發(fā)展,語義分塊技術(shù)也將不斷演進(jìn)和完善,為更多領(lǐng)域的應(yīng)用提供有力支持。無論是開發(fā)內(nèi)部知識機(jī)器人,還是構(gòu)建特定領(lǐng)域的智能助手,深入理解和應(yīng)用語義分塊技術(shù)都將帶來巨大的優(yōu)勢,推動人工智能應(yīng)用向更加智能、高效的方向發(fā)展。

責(zé)任編輯:武曉燕 來源: 大模型之路
相關(guān)推薦

2025-05-09 03:55:00

2024-01-29 08:49:36

RAG模型檢索

2024-09-30 14:10:00

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-10-13 08:00:00

2025-10-20 09:06:00

2025-05-09 07:50:30

2025-10-27 08:25:01

2025-04-07 01:02:00

GoAPI語言

2025-12-10 01:00:00

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2025-02-26 00:16:56

RAGAI服務(wù)

2012-07-18 11:39:18

ibmdw

2017-06-27 18:52:05

TensorFlow深度學(xué)習(xí)

2024-06-06 08:42:01

2025-06-26 07:00:00

上下文工程AI智能體

2025-12-08 02:35:00

上下文工程系統(tǒng)AI

2021-09-07 09:53:42

JavaScript變量提升

2024-09-05 08:24:09

2025-10-13 01:22:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

六十路精品视频| 视频午夜在线| 欧美乱熟臀69xxxxxx| 欧美午夜在线播放| 久久99久久久久久| 亚洲第一级黄色片| 老鸭窝亚洲一区二区三区| 国产高清在线| 666精品在线| 欧美日韩亚洲一区二区| 婷婷亚洲一区二区三区| 污片在线免费观看| 欧美videosex性极品hd| 北条麻妃在线一区| 国产91精品久| 欧美群妇大交群中文字幕| 日本欧美在线看| 456国产精品| 国产精品成人在线观看| 成人av动漫| 超碰在线97免费| 韩剧1988在线观看免费完整版| 久久精品亚洲乱码伦伦中文| 日韩综合一区二区三区| 亚洲国产日韩欧美在线观看| 性欧美长视频免费观看不卡| 亚洲免费观看在线观看| 欧美一区二区麻豆红桃视频| 在线视频毛片| 国产精品三区www17con| 日韩一级免费观看| 久久久99爱| 久久精品视频一区二区三区| 成午夜精品一区二区三区软件| 成人eeuss影院在线观看| 国产精品va在线| 色琪琪一区二区三区亚洲区| 国产视频久久| 台湾佬中文娱乐网欧美电影| 六月丁香激情网| 97免费在线视频| 欧美日韩在线视频一区| 久久久久国产精品一区二区| 日本成人片在线| 激情亚洲综合网| 成人av资源网| 日韩精品在线视频| 欧美国产精品中文字幕| 99热国内精品| 视频在线观看入口黄最新永久免费国产| 神马午夜伦理影院| 精品激情国产视频| 国产精品美女久久久久高潮| 成人h视频在线观看| 欧美性生交xxxxx久久久| 国产精品最新自拍| 国语自产精品视频在线看抢先版结局| 在线成人私人影院| 国产91精品入口17c| 色哟哟一区二区在线观看 | 97热在线精品视频在线观看| 亚洲老司机在线| 在线视频日韩| 青草综合视频| 视频在线91| 日韩 欧美 自拍| 欧美孕妇性xx| 日韩女优制服丝袜电影| 国产人久久人人人人爽| 国产综合自拍| 超碰一区二区| 啊灬啊灬啊灬啊灬高潮在线看| 二个人看的毛片| 国产成人女人毛片视频在线| 一区二区三区四区视频| 亚洲电影一区二区三区| 美女视频免费一区| 色狼人综合干| sm在线观看| 免费高清特黄a大片| 少妇精品久久久久久久久久| 97成人精品区在线播放| 日韩久久久精品| 国产精品伦一区二区三级视频| 影音先锋久久| 试看120秒一区二区三区| 99中文字幕一区| 日本美女高潮视频| 日韩三级电影网站| 日本亚洲欧美三级| 精品视频一区在线视频| 精品人伦一区二区三区蜜桃免费| 国产99久久久久| 亚洲h色精品| 欧美黄色一级| 国产在线拍揄自揄拍视频| 黄色免费看片| 国产成人在线电影| 高清毛片在线观看| 最新中文字幕在线视频| 日韩欧美视频免费在线观看| 91久久偷偷做嫩草影院| 欧美大奶子在线| 精品日韩在线观看| 亚洲不卡在线观看| 久久久综合激的五月天| 日韩成人免费电影| 亚洲国产精品成人| 国产精品久久久久久久久久白浆 | 成人午夜在线视频一区| 久久久久999| 欧美成人午夜电影| 黑人极品videos精品欧美裸| 国产亚洲精品精华液| 老司机一区二区三区| 欧美美乳视频| www.一区| 电影k8一区二区三区久久| 青青草在线播放| 激情欧美亚洲| 成av人片在线观看www| 小草在线视频在线免费视频| 四季av一区二区| 国产毛片久久久久久国产毛片| 精品久久久久久乱码天堂| 国产在线精品成人一区二区三区| 欧美伦理91i| 中文字幕亚洲图片| 亚洲激情视频在线播放| 91精品午夜视频| 在线视频你懂得一区| 一区二区三区美女视频| 国产精品视频一二三| 99国产精品久久| 成人黄色在线网站| 国产一区二区三区日韩| 免费在线一区观看| 久久精品成人| 国产亚洲欧洲| 亚洲经典自拍| 国内精品亚洲| 久久精品国内一区二区三区水蜜桃| 亚洲va久久久噜噜噜久久| 青草伊人久久| 不卡精品视频| 法国空姐在线观看免费| 亚洲欧美日韩国产成人精品影院| 99久久伊人网影院| 国产乱妇无码大片在线观看| 美女精品自拍一二三四| 日本欧美在线观看| 日韩激情中文字幕| 日韩精品乱码av一区二区| 男女av一区三区二区色多| 在线综合欧美| 久久精品午夜| 久久久久国产精品午夜一区| 在线视频精品| 久久综合影视| 日本欧美韩国一区三区| 美女视频黄免费的久久 | 亚洲精品伦理在线| 亚洲女人****多毛耸耸8| 国产欧美视频在线观看| 欧美极品aⅴ影院| 国产亚洲成av人在线观看导航| 91在线国产福利| 国产调教视频一区| 毛片av在线| 欧美日韩三区四区| 日本精品一区二区| 色99中文字幕| 黄色污污在线观看| 草草视频在线免费观看| 激情六月丁香婷婷| 久草在线资源网站| 午夜男人视频在线观看| 精品资源在线看| а√中文在线8| 成人动漫一区| 久久国产精品美女| 亚洲小说图片| 91精品国产乱码久久久久久 | 99热这里只有精品7| 欧美视频在线观看网站| 亚洲精品视频导航| 精东传媒在线观看| 番号集在线观看| av成人 com a| 国产午夜精品一区在线观看| 欧美爱爱网站| 68国产成人综合久久精品| 午夜亚洲激情| 另类av一区二区| 国产毛片一区二区| 欧美日韩黄网站| 妺妺窝人体色www看人体| 久久美女福利视频| 中文字幕高清在线观看| 国产午夜精品一区理论片|