国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

RAG分塊優化之語義分塊方法CrossFormer模型技術思路 原創

發布于 2025-4-2 07:36
瀏覽
0收藏

筆者在前期文章中總結了RAG的分塊《??RAG常見13種分塊策略大總結(一覽表)??》,本文介紹一個語義分段的工作,該工作解決的問題是文本語義分割,即將文檔分割成多個具有連續語義的段落。傳統方法通常依賴于預處理文檔以分段來解決輸入長度限制問題,但這會導致段間關鍵語義信息的丟失。RAG系統中的文本分塊方法主要分為基于規則和基于LLM的方法。

插入一個思路,其實,語義分段的方式筆者在很早實踐過一個思路,不管是RAG分塊還是基于規則分塊,都會或多或少的都是段落信息,如何通過語義的方式分割段落?筆者之前的思路最初的想法來源于序列標注模型,那么是否能應用序列標注的方法,來預測文本行之間的跳轉概率?答案是肯定的,以pdf為例,具體實施步驟如下: 先放上筆者之前的老圖:

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

  1. 從pdf讀取程序或ocr引擎中得到文本行及其坐標;
  2. 使用神經網絡對第i行的文本進行編碼,得到文本嵌入向量text_emb(i);
  3. 提取對應行的圖像,得到圖像嵌入向量img_emb(i);
  4. 提取字號、文字長度特征,并進行歸一化得到特征向量;
  5. 聚合步驟2、3、4得到的向量,得到行嵌入line_emb(i);
  6. 使用神經網絡對行向量序列[line_emb(i)]進行序列標注。

整體方案流程圖如下:

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

接下來,本文介紹的方法有異曲同工之處,也是采用序列標注的方式進行,供參考。

方法-CrossFormer

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

任務定義

CrossFormer 將文本語義分割任務定義為句子級別的序列標注問題。給定一個文檔 ,包含  個句子,每個句子  被分配一個二分類標簽 。標簽  表示由語義連貫性統一的一個段落的終端邊界,而  表示在同一主題段落內的連續性。目標是訓練一個函數 ,能夠根據上下文預測每個句子的標簽 。

為了實現這一點,模型在每個句子  的末尾添加一個特殊的標記 [SENT],并評估這個標記是否標志著一個段落邊界。通過這種方式,文檔被分割成一組不相交的語義段落

文檔預處理

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

由于文本語義分割任務通常涉及長文檔,需要采用適當的建模方法來有效處理這些文檔。論文中采用了截斷和分段的方法。步驟如下:

  1. 分段:根據任務指定的分隔符(如換行符或句號)對文檔進行分段。
  2. 截斷:將每個句子截斷到最大長度 。
  3. 拼接:將截斷后的句子按順序拼接,形成多個文檔段,每個段的長度不超過 。
  4. 批處理:將這些文檔段組裝成一個批次,并輸入模型進行訓練或推理。

跨段融合模塊 (CSFM)

CSFM 是 CrossFormer 的核心組件,用于增強文檔段之間的語義連貫性。原理如下:

  1. 全局語義表示:通過選擇預訓練的特殊標記 [CLS] 和 [SEP],提取每個段落的語義表示 。然后,通過最大池化從這些表示中獲取最大的語義成分,得到全局語義信息 。
  2. 拼接和線性變換:將全局語義嵌入  與每個分隔符嵌入  進行拼接,并通過兩個線性層進行處理,得到 ,即結合了全局語義信息的分隔符表示。
  3. 分類:將  輸入線性層并應用 Softmax 函數,得到分類結果,從而確定段落邊界。

訓練模型使用交叉熵損失函數即可。

通過這種方式,CSFM 能夠有效地捕捉文檔段之間的語義依賴關系,提高分割性能。

CrossFormer 作為 RAG 文本塊分割器

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

CrossFormer 可以作為RAG系統中的文本塊分割器,生成更具語義連貫性的文本塊。流程如下:

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

流程圖

  1. 分割長文檔:首先使用 CrossFormer 對輸入文檔進行分割,生成一系列文本塊。
  2. 長度評估:評估每個文本塊的長度。如果長度超過預設閾值,則將其輸入分割隊列進行進一步處理,直到確定不需要額外分割或文本塊長度低于指定閾值。
  3. 檢索和生成:使用分割后的文本塊進行檢索和生成。通過檢索器和問題提示進行相關性檢索,生成上下文,并將其輸入到LLM中以獲得最終答案。

局限性

  • CrossFormer不能精確控制文本塊長度的上限。因此,可能需要結合基于規則的方法來輸出合適的長度。
  • 作為線性文本語義分割模型,CrossFormer不能輸出部分重疊的文本塊,這在RAG系統的某些場景中是必需的

實驗效果

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

文本語義分割的結果

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

在RAG基準測試上的結果

RAG分塊優化之語義分塊方法CrossFormer模型技術思路-AI.x社區

參考文獻:CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation,https://arxiv.org/pdf/2503.23671v1


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/YSt1G-M5yEJCb8VcW0OlnA??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-2 07:36:18修改
收藏
回復
舉報
回復
相關推薦
国产精品日韩在线播放| 麻豆视频观看网址久久| 亚洲精品一卡二卡| 一区二区精品在线| 色呦哟—国产精品| 巨茎人妖videos另类| 欧美韩国日本一区| 国产性色av一区二区| 欧洲天堂在线观看| 国产国产精品| x99av成人免费| a级网站在线播放| 一级日本不卡的影视| 国产精品成熟老女人| 婷婷六月天丁香| 亚洲a级精品| 亚洲男人av电影| 亚洲一卡二卡三卡四卡无卡网站在线看| 久久a爱视频| 亚洲欧美综合色| 日韩精品在线视频免费观看| 亚洲综合国产| 成人免费视频网站入口| 精品国产一区二区三区av片| 欧美国产日本在线| 国产精品美女久久久久人| 亚洲欧美制服综合另类| 青草影视电视剧免费播放在线观看| 色网站国产精品| 中文产幕区在线观看 | 精品国产一区二区三区| 欧美激情xxxx| 91成人精品观看| 亚洲精品大尺度| 国产一区二区三区在线免费| 99精品视频免费观看视频| 国产精品极品美女在线观看免费| 精品视频91| 久久综合免费视频| 外国成人毛片| 久久精品这里热有精品| 精品国产第一国产综合精品| 久久国产精品久久久| 天堂va欧美ⅴa亚洲va一国产| 欧美大片欧美激情性色a∨久久| 免费观看性欧美大片无片| 精品综合久久久久久97| jizz国产精品| 国产97在线播放| 成人女性视频| 亚洲xxx自由成熟| 黄色成人在线网址| 神马影院我不卡| 国产精品美女午夜爽爽| 亚洲国产精品传媒在线观看| 逼特逼视频在线| 99国内精品久久久久久久| 国产精品亚洲网站| 深夜成人影院| 久久亚洲一区二区三区四区五区高| 久久爱.com| 欧美日韩成人网| 精品成av人一区二区三区| 91九色极品视频| 在线观看日韩av电影| 欧美理论电影在线观看| 另类图片第一页| 亚洲aⅴ日韩av电影在线观看| 国产精品三上| 男人天堂网站在线| 中文字幕在线观看不卡视频| 欧洲视频一区二区三区| 国产精品对白| 欧美α欧美αv大片| 成人免费淫片免费观看| 亚洲精品视频免费观看| 国产小视频免费在线观看| 91麻豆文化传媒在线观看| 国产伦精品一区二区三区视频免费 | vam成人资源在线观看| 国产成人精品视频在线| 在线成人h网| 黄色大片中文字幕| 亚洲成a人v欧美综合天堂| 在线三级电影| 亚洲人妖av一区二区| 一区二区三区我不卡| 92国产精品观看| 资源视频在线播放免费| 精品国产自在久精品国产| 欧美欧美欧美| 亚洲理论在线a中文字幕| 午夜先锋成人动漫在线| 这里只有精品视频| 精品久久久久久久久久久aⅴ| 欧美日韩一区在线播放| 国产片一区二区三区| 日本韩国在线视频爽| 26uuu另类欧美亚洲曰本| 一级毛片在线看| 视频一区视频二区国产精品| 日本一本在线免费福利| 欧美日韩999| 久久久夜夜夜| 国产偷国产偷亚洲高清97cao| 大陆成人av片| 欧美成人精品一区二区男人看| 欧美另类高清videos| 天堂久久一区二区三区| 992tv在线| 久久视频在线看| 日本不卡在线视频| 久久久资源网| 8x海外华人永久免费日韩内陆视频| 日本成人在线电影网| 污视频在线看操| 午夜久久久久久久久久一区二区| 日本不卡一二三| 国产三区精品| 亚洲一区二区三区激情| 色视频在线播放| 久久国内精品一国内精品| 美女国产精品| 你懂的在线网址| 国产精品久久久久999| 久久久噜噜噜久久中文字幕色伊伊| 91制片在线观看| 国产在线精品一区| 日韩欧美高清在线视频| 亚洲精品小区久久久久久| 欧美 日本 亚洲| 亚洲精品日韩久久久| 久久综合导航| 色多多视频在线观看| 亚洲伊人一本大道中文字幕| 日本一区二区三区免费乱视频| 五月激情久久| 中文字幕中文字幕一区三区| 91精品欧美福利在线观看| 欧美日韩亚洲一区三区| 国内视频一区二区| 午夜精品久久久久久久久久| 色婷婷精品视频| 另类图片亚洲色图| 97精品久久久| 国产精品电影院| 久久综合五月婷婷| 欧美狂欢多p性派对| 6080yy精品一区二区三区| 国产精品成人免费在线| 日韩高清影视在线观看| 黄色录像1级片| 日本中文字幕不卡免费| 亚洲精品成人少妇| 国产a久久精品一区二区三区| 黄页在线免费看| 国产精品久久久久免费a∨大胸| 亚洲综合色区另类av| 日韩精品第一区| 九色网友自拍视频手机在线| 99re视频| 欧美一区二区二区| 麻豆国产欧美一区二区三区| 国内激情视频在线观看| 欧美日韩国产成人在线| 久久蜜桃一区二区| 亚洲第一区视频| 国产精品免费视频xxxx| 欧美日韩国产一区中文午夜| 黄色在线网站噜噜噜| 亚洲蜜桃在线| 亚洲乱码精品一二三四区日韩在线| 激情小说一区| 中文字幕毛片| 3d动漫啪啪精品一区二区免费| 美女网站在线观看| 91av俱乐部| 老司机精品视频在线观看6| 亚洲天堂网站在线观看视频| 国产精品一卡二卡| 91国内外精品自在线播放| 中文在线不卡视频| 91小视频在线免费看| 国产精品久久久网站| jizzjizz亚洲中国少妇| 懂色中文一区二区三区在线视频| 久久精品香蕉视频| 欧美刺激脚交jootjob| 欧美日韩精品一本二本三本| 亚洲电影视频在线| 好吊色视频988gao在线观看| 精品国产一区二区三区四区在线观看 | 国产成人av电影在线播放| 性欧美video另类hd尤物| 免费的av电影| 久久久99爱| 萌白酱国产一区二区| 欧美日韩亚洲天堂| 国产成人综合网站| 99精品在线观看|