国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

繞過 RAG 實時檢索瓶頸,緩存增強生成(CAG)如何助力性能突破?

人工智能
在當前大語言模型應用大規模落地的背景下,這些挑戰正成為制約產品競爭力的關鍵瓶頸。傳統 RAG 方案中的檢索延遲、準確性波動以及系統復雜度,都在考驗著開發者的耐心和智慧。

檢索增強生成(RAG)作為一種通過整合外部知識源來增強語言模型的強大方法而備受矚目。不過,這種方法也帶來了一些挑戰,比如檢索過程的延遲、文檔挑選時可能出現的誤差,以及系統復雜度的增加。

隨著能夠處理更長上下文的大語言模型(LLMs)的興起,緩存增強生成(CAG)技術應運而生,它避免了實時的信息檢索。這項技術通過將所有必要資源預先加載到模型的擴展上下文中,并在緩存其相關運行時(runtime)參數,尤其在處理數量有限且易于管理的文檔或知識時更為有效。

話不多說,讓我們來深入探討這一新穎的技術。

本文將討論以下主題:

  • RAG 如何擴展上下文的處理能力?
  • 無限擴展的上下文窗口
  • CAG 技術有何優勢?
  • 其他方面的改進
  • CAG 框架的運作原理
  • 總結

圖片圖片

1.RAG 如何擴展上下文的處理能力?

RAG 是一種半參數化系統,其中參數化部分由大語言模型構成,而非參數化部分則包括其他元素。將這兩部分結合,便形成了半參數化系統。在 LLMs 中,所有信息都以編碼形式存儲在模型的權重或參數中,而系統的其他部分則沒有用參數來定義這些知識。

那么,這種設計是如何解決問題的呢?

  • 通過在 LLMs 中靈活地替換索引(即特定的信息),能夠實現信息的個性化定制,這意味著我們不會因為信息過時而受限,同時也能夠更新索引的內容。
  • 將 LLMs 與這些索引相結合,可以減少錯誤信息的產生,并且我們能夠通過指向信息原始來源來進行引用和歸屬描述。

因此,從理論上講,RAG 提升了我們為 LLMs 創建更佳上下文的能力,使其表現更加出色。

但這個過程真的這么簡單嗎?答案是否定的。

現有的 RAG 系統并不夠智能,它們相對簡單,無法應對那些需要大量自定義上下文的復雜任務。

因此,簡而言之,正是由于上下文窗口對 LLMs 的限制,RAG 才得以發展起來。

2.無限擴展的上下文窗口

相關論文在此:《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》。

這篇論文提出了一種高效的方法,可以在有限的內存和計算資源約束下,將基于 Transformer 的大語言模型(LLMs)擴展到處理無限長的輸入。該方法中的一個關鍵創新是一種名為 Infini-attention 的全新注意力機制。

Infini-attention 的核心思想是將局部注意力和全局注意力相結合。具體來說,首先將整篇文章分割成多個片段,在其中一個片段上應用標準的注意力機制,而為了獲取前一個片段的上下文,我們采用了一種線性注意力機制。以下是對這篇論文的簡要概述:

  • 混合注意力機制:局部注意力集中于單詞周圍的即時上下文,而長距離注意力則通過參考迄今為止所見的整個序列的壓縮摘要來保持全局視野。
  • 壓縮記憶:利用線性注意力來記憶之前的文本片段。
  • 高效更新:為了避免冗余和節省計算量,Infini-attention 不會直接將新信息添加到記憶中。相反,它會首先檢查已知信息,然后只更新記憶中的新信息或不同信息,這與 ResNet 中的跳躍連接(skip connections)類似。
  • 權衡控制:通過一個超參數來調節局部信息和壓縮記憶的混合比例。

3.CAG 技術有何優勢?

無檢索長上下文范式:提出了一種創新方法,通過利用預加載文檔和預計算 KV 緩存的長上下文 LLMs,消除了檢索延遲、錯誤和系統復雜性。

性能比較:實驗表明,長上下文 LLMs 的性能優于傳統的 RAG 系統,特別是在可管理的知識庫中。

實用見解:提出可操作的優化策略以提升知識密集型工作流效率,通過實證驗證無檢索方法在特定應用場景下的可行性。

CAG 相較于傳統 RAG 系統具有以下顯著優勢:

  • 縮短推理時間:由于無需實時檢索,推理過程變得更快、更高效,能夠更快地響應用戶查詢。
  • 統一上下文:將整個知識集合預加載到 LLM 中,可提供對文檔的整體和連貫理解,從而在各種任務中提高響應質量和響應一致性。
  • 簡化架構:通過移除整合檢索器和生成器的需求,系統變得更加簡潔,降低了系統復雜性,提高了可維護性,并減少了開發成本。

4.其他方面的改進

對于知識密集型任務而言,增加的計算資源通常被用來融入更多的外部知識。然而,如果沒有有效地利用這些知識,單純地擴展上下文并不總是能提升性能。

兩種推理擴展策略:上下文學習(In-context learning)和迭代式提示技術(iterative prompting)。

這些策略為擴展測試時計算(test-time computation)提供了額外的靈活性(例如,通過增加檢索的文檔數量或生成步驟),從而增強 LLMs 獲取和利用上下文信息的能力。

我們需要回答兩個關鍵問題:

(1) 在進行最優配置時,RAG 性能如何通過推理計算規模的擴展獲得提升?

(2) 能否通過建模 RAG 性能與推理參數之間的量化關系,預測給定預算約束下的最優測試時計算資源分配?

在最優推理參數配置下,RAG性能隨著測試時計算量級的提升呈現近似線性增長。基于實驗觀測,我們推導出RAG的推理擴展規律及其配套計算資源分配模型,該模型可預測不同超參數配置下的系統性能表現。

欲了解更多信息請閱讀此論文:https://arxiv.org/pdf/2410.04343

另一項工作則更多地從硬件(優化)設計的角度出發:

研究團隊開發了智能知識存儲系統(Intelligent Knowledge Store, IKS),這是一種基于 CXL 2.0 協議的設備,采用橫向擴展的近內存加速架構,通過在主機 CPU 與近內存加速器之間構建新型緩存一致性接口實現性能突破。

在 512GB 向量數據庫上,IKS 執行精確最近鄰搜索的速度相比 Intel Sapphire Rapids CPU 提升 13.4-27.9 倍。這種搜索性能優勢使典型 RAG 應用的端到端推理時間縮短 1.7-26.3 倍。作為內存擴展器,IKS 的內部 DRAM 可解耦供服務器其他應用使用,有效避免當今服務器中最昂貴的 DRAM 資源閑置浪費。

欲了解更多信息,請閱讀這里:https://arxiv.org/pdf/2412.15246

另一篇論文系統性地研究了長上下文對 20 種主流開源和商業大語言模型(LLM)的檢索增強生成(RAG)性能影響。研究團隊通過在三個專有領域數據集上改變總上下文長度(從 2,000 到 128,000 tokens,并在可能情況下擴展至 200 萬 tokens)運行 RAG 工作流,揭示了長上下文在 RAG 應用中的優勢與局限性。

他們的研究發現,雖然檢索更多文檔可以提高性能,但只有少數最新一代的最先進 LLMs 能夠在超過 64k tokens 的長上下文中保持穩定的準確性。他們還確定了長上下文場景中的不同故障模式,為未來的研究提出了方向。

欲了解更多信息,請閱讀此論文:https://arxiv.org/pdf/2411.03538

5.CAG 框架的運作原理

CAG 框架利用長上下文 LLMs 的擴展上下文能力,消除了實時檢索的需求。通過預加載外部知識源(例如,文檔集合 D={d1,d2,…} )并預計算鍵值(KV)緩存(C_KV),它克服了傳統 RAG 系統的效率低下問題。該框架主要分三個階段運行:

1)外部知識預加載

  • 對精選的文檔集合 D 進行預處理,使其適配模型的擴展上下文窗口。
  • LLM 處理這些文檔,將它們轉換為預計算的鍵值(KV)緩存,該緩存封裝了 LLM 的推理狀態。LLM(M)將文檔集合 D 編碼成預計算的 KV 緩存:

image.pngimage.png

  • 該預計算緩存被存儲以供復用,確保無論后續執行多少次查詢,處理文檔集合D的計算成本僅需支付一次。

2) 推理階段

  • 在推理階段,KV 緩存(C_KV)與用戶查詢 Q 一起加載。
  • LLM 利用這個緩存中的上下文來生成響應,從而消除了檢索延遲,并減少了由于動態檢索引起的錯誤或遺漏的風險。LLM 通過利用緩存中的上下文來生成響應:

image.pngimage.png

這種方法消除了檢索延遲,將檢索錯誤的風險降至最低。組合提示詞 P=Concat(D,Q) 確保了對外部知識和查詢的統一理解。

3) 緩存重置

  • 為維持性能,需對 KV 緩存進行高效重置。在推理過程中,隨著新 token(t1,t2,…,tk)被添加至上下文窗口,重置過程會截斷這些 tokens:

image.pngimage.png

  • 隨著新 token 的連續添加,KV 緩存逐漸增長,重置時僅需截斷這些新增 token,即可實現快速重新初始化,無需從磁盤重新加載整個緩存。這種設計避免了全量緩存加載的 I/O 瓶頸,確保了系統響應速度的持續穩定。

6.Conclusion

緩存增強生成(CAG)在實時檢索不可行或需要極低延遲響應的場景中優勢顯著。通過將海量外部知識嵌入模型的上下文窗口,CAG 能夠生成信息豐富且上下文相關的回答,避免了傳統檢索增強生成(RAG)系統的檢索延遲。

Thanks for reading! 

Hope you have enjoyed and learned new things from this blog!

責任編輯:武曉燕 來源: Baihai IDP
相關推薦

2025-02-11 08:00:00

大語言模型檢索增強生成CAG

2023-10-14 17:46:17

RAG提示工程GPT-3

2025-04-01 09:25:09

2024-05-20 08:31:33

檢索增強生成LLM大型語言模型

2025-05-28 01:25:00

RAG人工智能語言模型

2025-04-29 08:20:51

2025-09-01 07:02:48

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2024-10-31 14:46:31

2025-06-13 02:25:00

2024-11-19 13:05:40

2025-04-27 00:30:00

RAG檢索增強生成AI

2024-05-28 09:24:32

2024-04-19 14:27:26

檢索增強生成大型語言模型

2025-07-07 04:55:00

2024-09-05 08:24:09

2025-09-28 04:22:00

RAGSpring AI人工智能

2025-02-13 09:01:03

2025-09-01 08:53:57

2023-09-11 09:00:00

檢索增強生成大數據模型自然語言處理
點贊
收藏

51CTO技術棧公眾號

亚洲自拍欧美另类| 精品视频免费观看| 日本高清成人vr专区| 综合激情成人伊人| 中文字幕色一区二区| 亚洲精品影视| 亚洲一区二区久久久久久| 全球av集中精品导航福利| 久久99精品久久久久久琪琪 | 国产伦理精品不卡| 国产偷久久久精品专区| 欧美国产一级| 国产精品扒开腿做爽爽爽男男| 国产日韩一区二区三免费高清| 国产亚洲精品综合一区91| 8x8ⅹ拨牐拨牐拨牐在线观看| 91精品一区二区三区久久久久久| 极品美乳网红视频免费在线观看 | av在线播放亚洲| 国产福利91精品一区二区三区| 亚洲一区二区三区精品视频| 青青草国产成人99久久| 亚欧精品在线| 精品一区二区三区免费观看| 在线观看成人一级片| 久久99久久精品| 精品国产一区二区三区在线| 狠狠久久亚洲欧美| 麻豆视频传媒入口| 成人一区二区视频| 北条麻妃在线视频观看| 久久久精品免费观看| 色爱综合网站| 亚洲一区二区四区蜜桃| 头脑特工队2免费完整版在线观看 头脑特工队2在线播放 | 欧美成人首页| 成人一区二区三区四区| 国产人成精品一区二区三| 欧洲精品久久| 粉嫩av一区二区三区| 国产免费视频传媒| 亚洲精品国产精华液| 污视频在线看操| 777色狠狠一区二区三区| av资源在线播放| 久久伊人色综合| 美日韩中文字幕| 99久热re在线精品996热视频| 美日韩精品视频| 激情五月六月婷婷| 国产精品久久久久一区二区三区 | 最近中文字幕在线中文视频| 欧美日韩在线三级| 僵尸再翻生在线观看| 久久精品人人做人人爽| 精品国产91乱码一区二区三区四区 | 国产爆初菊在线观看免费视频网站| 6080国产精品一区二区| 日本欧美在线| 亚洲伊人久久综合| 国产麻豆成人精品| 制服丝袜影音| 91精品国产免费| 欧美午夜在线播放| 国产66精品久久久久999小说| 国产裸体歌舞团一区二区| 女同互忝互慰dv毛片观看| 日韩午夜在线播放| 美女午夜精品| 日本高清久久一区二区三区| gogo大胆日本视频一区| 最近中文字幕mv第三季歌词| 精品少妇一区二区三区| 中文字幕日韩在线| 精品国产一二| 国产精品护士白丝一区av| 在线观看免费版| 久久精品视频导航| 狠狠入ady亚洲精品经典电影| 黄色一级视频片| 在线日韩国产精品| 国产午夜久久av| 久久青青草综合| 久久久久久一级片| a毛片在线播放| 欧美亚洲激情在线| 国产在线精品不卡| 欧美美女搞黄| 欧美激情综合亚洲一二区| 久久国产直播| 国产精品㊣新片速递bt| 日韩中文字幕在线视频播放| 国产一区二区高清在线| 成年人三级视频| 国内性生活视频| 欧美另类变人与禽xxxxx| 99re6热只有精品免费观看| 国内精品视频在线播放| 国产精品久久久久一区二区三区 | 日本婷婷久久久久久久久一区二区| 国产精品美女久久久久久久| 日本不卡1234视频| 国产精品久久久久久久免费大片| 国产人伦精品一区二区| 少妇视频一区| 蜜桃臀一区二区三区| 一区二区三区日本| 日韩成人综合网| 这里只有精品66| 制服.丝袜.亚洲.中文.综合| 日韩欧美高清在线播放| av视屏在线播放| 永久免费精品影视网站| 日韩高清电影一区| h视频在线免费| 国产欧美日韩视频| 久久久久久久国产精品影院| 成人欧美magnet| 日韩av电影免费在线观看| 91黄色免费观看| 日韩电影免费在线观看| 黑巨人与欧美精品一区| 久久免费少妇高潮久久精品99| 成人福利在线看| 日本综合视频| 91午夜在线观看| 国产亚洲精品久久久久久777| 久久爱www久久做| 国产盗摄——sm在线视频| 日韩国产高清一区| 日韩美女一区二区三区| 日本视频免费一区| 中中文字幕av在线| 亚洲欧洲一区二区在线观看| 精品区一区二区| 另类小说一区二区三区| av手机在线观看| 99er在线视频| 久久九九亚洲综合| 欧美精彩视频一区二区三区| 国产主播性色av福利精品一区| 综合网插菊花| 日韩av电影手机在线| 尤物av一区二区| 99国产**精品****| 成人免费在线观看| 欧美日韩国产综合在线| 精品国产一区二区三区四区四| 人人精品人人爱| 成人日韩av| 国产日韩在线| 91亚洲精品在线观看| 欧美日韩精品高清| 久久99久久99小草精品免视看| 日本美女久久| 国产91白丝在线播放| 亚洲最大的成人网| 日韩精品一区二区三区视频播放| 国产麻豆视频一区| 亚洲五码在线| 在线观看高清av| 美日韩免费视频| 一区三区二区视频| 亚洲天天做日日做天天谢日日欢 | shkd中文字幕久久在线观看| 欧美午夜精品久久久久久蜜| 国产亚洲精品va在线观看| 日本一区二区三区四区| 久久伦理在线| 污视频在线看网站| 成年人网站大全| 91在线看www| 亚洲美女av网站| 亚洲男人都懂的| 乱码第一页成人| 国产不卡精品| 国模吧精品人体gogo| 亚洲精品国产suv一区88| 日本久久91av| 亚洲福利视频在线| 国产精品久久久久久久久久久免费看 | 久久精品国产99久久| av片在线观看免费| www.四虎成人| 91视频免费网站| 亚洲欧美日韩另类| 亚洲欧美另类图片小说| 老司机午夜精品视频在线观看| 久久69av| 99免在线观看免费视频高清| 91黄色在线看| 91视频网页| 久久久国产精品一区| 欧美性少妇18aaaa视频| 国产a视频精品免费观看| 99热在线成人| 福利一区二区免费视频| 久久电影中文字幕| 精品久久久久久久无码| 日本视频一区二区在线观看|