国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

顛覆直覺:Top N 越大,RAG效果可能越差

發布于 2025-2-24 11:28
瀏覽
0收藏

一、RAG 系統的背景與挑戰

在自然語言處理(NLP)領域,大型語言模型(LLMs)如 GPT、BERT 等已經展現出了強大的文本生成、問答和摘要能力。然而,這些模型也存在一些顯著的局限性。

? 首先,LLMs 的知識是靜態的,這意味著它們無法及時更新以反映新信息,導致生成的回答可能過時。

? 其次,LLMs 有時會生成聽起來合理但事實上錯誤的回答,這種現象被稱為“幻覺”。

? 最后,LLMs 在涉及高級專業領域的知識時,往往缺乏足夠的深度。

為了應對這些挑戰,檢索增強生成(Retrieval-Augmented Generation, RAG)系統應運而生。RAG 系統通過引入檢索組件,使 LLMs 能夠動態地利用外部知識源,從而生成更準確、更及時的回答。

RAG 系統已經在多個行業中得到廣泛應用,尤其是在企業內部文檔查詢等場景中。然而,盡管 RAG 系統的應用日益廣泛,關于其最佳配置的研究卻相對缺乏,特別是在上下文大小、基礎 LLM 選擇以及檢索方法等方面。

二、試驗結果

RAG 系統通常由兩個主要組件構成:檢索器(Retriever)和生成器(Reader):

? 檢索器負責從外部知識庫中檢索相關的上下文片段,這些片段隨后被傳遞給生成器

? 生成器基于這些上下文生成最終的回答。

作者重點探討了這三個方面(檢索器、上下文、生成器)對系統整體性能的影響。

首先研究了上下文大小對生成器問答能力的影響。結果表明:隨著上下文片段數量的增加,系統的性能逐步提升,但當片段數量達到 10 到 15 個時,性能開始趨于穩定,甚至在某些情況下會出現下降。這一現象表明,過多的上下文片段可能會導致信息過載,反而影響生成器的表現。

2.1 黃金片段測試

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

上圖展示了四個較大尺寸的大語言模型(LLMs)在使用黃金片段后的表現,四個模型分別是GPT3.5、GPT-4o、Llama 3 70B、Mixtral (8x7B)。

所有模型都呈現出相似的模式:

? 從較低的零樣本性能開始,僅使用一個上下文片段就能顯著提升性能。

? 大多數模型在所有三個評估指標上逐步且穩定地改進。

2.2 封閉式測試

使用了包含八千篇PubMed文章的小型知識庫,這些文章在BioASQ中被用作黃金證據。

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

實驗結果如上表所示,模型性能與之前有所下降。即使是表現最佳的Mixtral模型,其性能也平均下降。

盡管如此,隨著選擇的top k片段數量的增加,性能仍然逐步提升,表明更多的上下文信息能夠帶來更好的表現。

這一點在top-10設置中尤為明顯,因為選擇的證據片段越多,選中用于生成理想答案的黃金證據片段的概率就越高。

2.3 開放式測試

使用約1000萬篇PubMed文章作為檢索的知識庫。其目的是觀察:

(1)在開放式設置下,性能與使用黃金證據的封閉式設置相比有多大差異;

(2)不同檢索器對性能的影響。

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

上表結果顯示:

? 開放式檢索顯然是最具挑戰性的設置,整體平均得分最低。

? 使用BM25檢索文檔的最終性能略優于語義搜索。

3. 結論

3.1 檢索技術

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

從上表可以看出,BM25在整體性能上表現更優。由于BM25基于關鍵詞匹配,這種檢索技術優化了搜索結果的精確度(precision)而非召回率(recall),從而確保檢索到的文檔更有可能討論問題中提到的相同概念(關鍵詞)。

優化精確度并將查詢關鍵詞與知識庫中的內容匹配,可以提升性能。特別是在生物醫學領域等關鍵應用中,優化精確度和生成穩健的答案可能比語義搜索提供的召回率更為重要

注:

? ROUGE-L 是一種基于最長公共子序列(LCS)的評估指標,主要用于衡量生成文本與參考文本之間的相似性。它關注生成文本中與參考文本匹配的最長連續子序列,側重于召回率(Recall),即生成文本中有多少內容與參考文本一致。

? BERTScore 是一種基于預訓練語言模型(如 BERT)的評估指標,通過計算生成文本與參考文本在語義空間中的相似性來評估質量。它使用 BERT 模型將文本編碼為向量,然后計算生成文本與參考文本之間的余弦相似度。相比 ROUGE 等基于詞匯重疊的指標,BERTScore 更能捕捉語義層面的相似性,適合評估生成文本的語義準確性。

? Ent.% 是基于自然語言推理(Natural Language Inference, NLI)模型的評估指標,用于衡量生成文本與參考文本之間的邏輯一致性(蘊含關系)。NLI 模型會判斷生成文本是否邏輯上蘊含(Entailment)參考文本的內容。

3.2 內部知識與外部知識的沖突

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

上表中開放式檢索的一個有趣現象:GPT和Mixtral在零樣本答案(無上下文片段)中的得分高于提供多達10個上下文片段的答案。

這種現象的一個可能解釋是:盡管在語料庫中發現的片段可能與問題在語義上相似,但它們并不總是提供所有重要信息。

當僅使用普通提示時,LLM基于其“內部”知識生成答案:反映了LLM從大規模預訓練語料庫中積累的知識。

因此,LLM的內部知識答案可能比RAG設置中的答案更具信息量,因為在RAG設置中,LLM被指示僅使用提供的短片段來回答問題。隨著更多片段的加入,RAG答案的信息量開始超越LLM的內部知識。

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

以上表中的第一個示例為例,Mixtral基于內部知識生成的答案提到了純化和IgG,與黃金答案一致,而基于top-3片段生成的答案則是不完整的。

一般來說,瓶頸通常與錯誤的檢索有關——有時檢索到的片段根本沒有回答問題,尤其是對于BioASQ中復雜的生物醫學術語。

另一方面,普通設置下的LLM總是基于其最佳知識提供答案,因此在檢索不佳的情況下表現更好。在上表的第二個示例中顯而易見。

展示了LLM內部知識與傳遞給它們的上下文知識之間沖突的已知挑戰,也是一個有趣的未來研究方向。

3.3 上下文飽和

顛覆直覺:Top N 越大,RAG效果可能越差-AI.x社區圖片

上表中的另一個發現是,性能提升存在一定的上限。

隨著不斷增加上下文片段的數量,增加到20個時,性能趨于停滯,而在檢索到30個上下文片段時,性能略有下降。

當達到飽和點后,向提示中添加更多上下文只會導致回答中的噪音和混淆。

證實了文獻中的先前發現,即在長提示中,上下文可能會“迷失在中間”,并在LLM回答問題時被忽略。

注:本論文代碼和數據已開源:https://github.com/jvladika/ContextRAG

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI 

已于2025-2-24 13:26:50修改
收藏
回復
舉報
回復
相關推薦
农民人伦一区二区三区| 影音先锋中文在线视频| 国产九色porny| 日韩大胆成人| 精品嫩草影院久久| 蜜桃视频免费网站| 成人午夜在线免费| 国产精品视频99| 777午夜精品电影免费看| 欧美日韩精品综合在线| y4480在线8影院| 欧美激情中文字幕一区二区| 成人性色av| 日韩国产精品一区二区| 久久久久久a亚洲欧洲aⅴ| 激情小说综合网| 九色网友自拍视频手机在线| 国产尤物一区二区| 91网站在线免费观看| 国产一区日韩| 亚洲欧美成人一区二区三区| 在线播放国产精品二区一二区四区| 爱福利视频一区| 成人黄色在线播放| 成人亚洲视频在线观看| 欧美日韩国产观看视频| h片在线观看| 国产免费久久| 日韩久久一区二区三区| 国产精品视频一二三| 95av在线视频| 亚洲欧美日韩国产一区二区三区| 亚洲成色999久久网站| 久久无码高潮喷水| 欧美私人网站| 亚洲+小说+欧美+激情+另类 | 久久免费美女视频| 骚视频在线观看| www.69av| 亚洲美女黄色片| 久久久久免费视频| 91精品国产91久久久久麻豆 主演| 色婷婷久久99综合精品jk白丝| 欧美久久在线| 亚洲黄色一区| 久久免费视频1| 无人视频在线观看免费| 国精品**一区二区三区在线蜜桃| 99久久综合狠狠综合久久止 | 26uuu国产在线精品一区二区| 欧美激情一区二区三区在线视频观看 | 亚洲国产三级在线| 精品国产第一页| 日韩成人在线一区| 欧美精品丝袜中出| 青青草视频免费在线观看| 欧美人牲a欧美精品| 视频在线日韩| 久久精品日产第一区二区三区精品版 | 自拍偷自拍亚洲精品被多人伦好爽| 国产亚洲精品美女久久久久| 成人国产免费视频| 91成人福利| 午夜精品福利在线观看| 男女激情视频一区| 老司机午夜激情| 久久精品日产第一区二区三区高清版| 波多一区二区| 啊v视频在线一区二区三区 | 亚洲精品国产九九九| 国产精品免费视频久久久| 欧美在线视屏| 亚洲人一二三区| 国产精品激情av在线播放| 综合视频在线| 在线观看日韩片| 久久影院视频免费| 中文字幕在线影院| 精品久久久网站| 91成人小视频| 国产aⅴ精品一区二区三区黄| 国产成人精品免费一区二区| 99re6热在线精品视频播放| 日韩精品一区二区三区中文精品| 国产麻豆精品| 欧美日韩在线一区二区三区| 日本一区二区三区在线观看| 日本综合在线| 久久久午夜视频| 欧美专区一区二区三区| 日韩免费毛片视频| 欧洲av在线精品| 日本亚洲欧洲无免费码在线| 成人av影视在线| 国产精品免费av| 伊人久久国产| 国产精品乱码| 亚洲视频免费看| 国产免费拔擦拔擦8x高清在线人| 国产精品亚洲网站| 91在线免费视频观看| 国产一区久久精品| 国产精品一区二区三区成人| 99re66热这里只有精品3直播| 在线视频国产区| 91午夜理伦私人影院| 国产精品免费视频一区| 在线天堂资源| 欧美一区视久久| 欧美午夜女人视频在线| 96sao在线精品免费视频| 日韩视频一二三| 91精品国产综合久久精品app| 日韩美脚连裤袜丝袜在线| 国产xxxx振车| 亚洲精品福利免费在线观看| 亚洲小说欧美另类社区| 石原莉奈一区二区三区高清在线| 另类视频在线观看| 国产福利一区二区三区| bl视频在线免费观看| 综合av第一页| 亚洲一区bb| 欧美午夜一区二区三区免费大片| 色天天色综合| 国产美女无遮挡网站| 精品在线欧美视频| 国产视频一区欧美| 国产天堂在线| 国产综合色香蕉精品| 亚洲视频 欧洲视频| 国偷自产av一区二区三区| 日本三级免费观看| 久久视频这里只有精品| 91色视频在线| 四虎精品永久免费| 国产白丝袜美女久久久久| 日韩在线视频导航| 99国产精品久久久| 久久久久久亚洲精品美女| 国产无套粉嫩白浆内谢的出处| 日韩在线视频线视频免费网站| 国产黄色精品网站| 亚洲一区二区三区四区| 欧美,日韩,国产在线| 久久精品视频亚洲| 国产天堂亚洲国产碰碰| 白嫩白嫩国产精品| 亚洲精品666| 大波视频国产精品久久| 日韩视频123| 国内国产精品久久| 成人国产精品一区二区网站| 国产高潮免费视频| 97在线视频免费| 亚洲第一主播视频| 亚洲精品影视| 国产白浆在线免费观看| av日韩一区二区三区| 高清在线视频日韩欧美| 伊人性伊人情综合网| 欧美精选一区| 国产www视频在线观看| 国产成人无码a区在线观看视频| 久久久最新网址| 午夜精品影院在线观看| 一本综合精品| 日本美女久久| 成年美女网站| 中文字幕亚洲在线观看| 欧美国产日韩在线播放| 992tv在线成人免费观看| 日本精品一区二区三区高清| 日韩在线卡一卡二| 国产一区一区| 午夜在线观看91| 污视频在线免费观看一区二区三区 | 小视频免费在线观看| 精品99在线视频| 成人黄色片网站| 亚洲国产天堂久久国产91| 国产欧美一区二区精品秋霞影院| 久久影视一区| 草草在线视频| 天天干天天干天天干天天干天天干| 国产精品一区二区久久| 日韩久久免费av| 国产视频911| 亚洲二区免费| 高清一区二区三区av| 日韩精品视频无播放器在线看 | 国产精品色眯眯| 国内自拍一区| 亚州欧美在线| 国自产拍在线网站网址视频| 精品人妻人人做人人爽| 91精品久久久久久久久不口人| 亚洲精品视频久久| 午夜久久久影院| 国产99一区视频免费|