国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

LLM超長上下文查詢-性能評估實戰(zhàn)

發(fā)布于 2024-4-9 11:28
瀏覽
0收藏

在大型語言模型(LLM)的應用中,有幾個場景需要以結(jié)構(gòu)化的方式呈現(xiàn)數(shù)據(jù),其中信息提取和查詢分析是兩個典型的例子。我們最近通過更新的文檔和一個專門的代碼倉庫強調(diào)了信息提取的重要性。對于查詢分析,我們同樣更新了相關(guān)文檔。在這些場景中,數(shù)據(jù)字段可能包括字符串、布爾值、整數(shù)等多種類型。而在這些類型中,處理高基數(shù)的分類值(即枚舉類型)是最具挑戰(zhàn)性的。

LLM超長上下文查詢-性能評估實戰(zhàn)-AI.x社區(qū)

所謂的“高基數(shù)分類值”,指的是那些必須從有限的選項中選擇的值,這些值不能隨意指定,而必須來自一個預定義的集合。當這個集合中的有效值數(shù)量非常龐大時,我們稱之為“高基數(shù)”。處理這類值之所以困難,是因為LLM本身并不知道這些可能的值是什么。因此,我們需要向LLM提供關(guān)于這些可能值的信息。如果忽略了這一點,LLM可能會自行編造值。對于只有少數(shù)幾個可能值的情況,我們可以通過在提示中明確列出這些值來解決。但是,當可能的值非常多時,問題就變得復雜了。

隨著可能值數(shù)量的增加,LLM正確選擇值的難度也隨之增加。一方面,如果可能的值太多,它們可能無法適應LLM的上下文窗口。另一方面,即使所有可能的值都能適應上下文,將它們?nèi)堪趦?nèi)會導致處理速度變慢、成本增加,以及LLM在處理大量上下文時的推理能力下降。

我們最近對查詢分析進行了深入研究,并在修訂相關(guān)文檔時特別增加了一個關(guān)于如何處理高基數(shù)分類值的頁面。在這篇博客中,我們將深入探討幾種實驗性方法,并提供它們的性能基準測試結(jié)果。

結(jié)果的概覽可以在LangSmithhttps://smith.langchain.com/public/8c0a4c25-426d-4582-96fc-d7def170be76/d?ref=blog.langchain.dev中查看。接下來,我們將詳細介紹:

LLM超長上下文查詢-性能評估實戰(zhàn)-AI.x社區(qū)

數(shù)據(jù)集概覽

詳細的數(shù)據(jù)集可以在這里查看https://smith.langchain.com/public/8c0a4c25-426d-4582-96fc-d7def170be76/d?ref=blog.langchain.dev。

為了模擬這一問題,我們假設了一個場景:我們要查找某位作者關(guān)于外星人的書籍。在這個場景中,作者字段是一個高基數(shù)分類變量——可能的值有很多,但它們應該是特定的有效作者名字。為了測試這一點,我們創(chuàng)建了一個包含作者姓名和常用別名的數(shù)據(jù)集。例如,“Harry Chase”可能是“Harrison Chase”的別名。我們希望智能系統(tǒng)能夠處理這類別名。有了這個姓名和別名列表后,我們又生成了10,000個隨機姓名。需要注意的是,10,000的基數(shù)并不算高——對于企業(yè)級系統(tǒng)來說,可能要面對的是數(shù)百萬級別的基數(shù)。

利用這個數(shù)據(jù)集,我們提出了這樣的問題:“Harry Chase關(guān)于外星人的書有哪些?”我們的查詢分析系統(tǒng)應該能夠?qū)⑦@個問題解析為結(jié)構(gòu)化格式,包含兩個字段:主題和作者。在這個例子中,預期的輸出應該是{“topic”: “aliens”,“author”: “Harrison Chase”}。我們期望系統(tǒng)能夠識別出沒有名為Harry Chase的作者,但Harrison Chase可能是用戶想要表達的意思。

通過這種設置,我們可以針對我們創(chuàng)建的別名數(shù)據(jù)集進行測試,檢查它們是否能夠正確映射到真實姓名。同時,我們還會記錄查詢的延遲和成本。這種查詢分析系統(tǒng)通常用于搜索,因此我們非常關(guān)心這兩個指標。出于這個原因,我們也限制了所有方法只能進行一次LLM調(diào)用。我們可能會在未來的文章中對使用多次LLM調(diào)用的方法進行基準測試。

接下來,我們將介紹幾種不同的方法及其性能表現(xiàn)。

LLM超長上下文查詢-性能評估實戰(zhàn)-AI.x社區(qū)

完整的結(jié)果可以在LangSmith中查看,復現(xiàn)這些結(jié)果的代碼可以在這里找到。

基線測試

首先,我們對LLM進行了基線測試,即在不提供任何有效姓名信息的情況下,直接要求LLM進行查詢分析。結(jié)果不出所料,沒有一個問題得到了正確回答。這是因為我們故意構(gòu)建了一個需要通過別名查詢作者的數(shù)據(jù)集。

上下文填充法

在這種方法中,我們將所有10,000個合法的作者姓名都放入了提示中,并要求LLM在進行查詢分析時記住這些是合法的作者姓名。一些模型(如GPT-3.5)由于上下文窗口的限制,根本無法執(zhí)行這個任務。對于其他具有更長上下文窗口的模型,它們在準確選擇正確姓名方面也遇到了困難。GPT-4只在26%的案例中選擇了正確的姓名。它最常見的錯誤是提取了姓名但沒有進行校正。這種方法不僅速度慢,成本也高,平均需要5秒鐘才能完成,總成本為8.44美元。

LLM前過濾法

我們接下來測試的方法是在將可能的值列表傳遞給LLM之前進行過濾。這樣做的好處是只傳遞可能姓名的子集給LLM,這樣LLM需要考慮的姓名就少得多,希望能夠讓它更快、更便宜、更準確地完成查詢分析。但這也增加了一個新的潛在失敗模式——如果初步過濾出錯怎么辦?

基于嵌入的過濾法

我們最初使用的過濾方法是嵌入法,并選擇了與查詢最相似的10個姓名。需要注意的是,我們是將整個查詢與姓名進行比較,這并不是一個理想的比較方式!

我們發(fā)現(xiàn),使用這種方法,GPT-3.5能夠正確處理57%的案例。這種方法比以前的方法快得多,也便宜得多,平均只需要0.76秒就能完成,總成本僅為0.002美元。

基于NGram相似性的過濾法

我們使用的第二種過濾方法是對所有有效姓名的3-gram字符序列進行TF-IDF向量化,并使用向量化的有效姓名與向量化的用戶輸入之間的余弦相似度來選擇最相關(guān)的10個有效姓名添加到模型提示中。同樣需要注意的是,我們是將整個查詢與姓名進行比較,這并不是一個理想的比較方式!

我們發(fā)現(xiàn),使用這種方法,GPT-3.5能夠正確處理65%的案例。這種方法同樣比以前的方法快得多,也便宜得多,平均只需要0.57秒就能完成,總成本僅為0.002美元。

LLM后選擇法

我們最后測試的方法是在LLM完成初步查詢分析后,嘗試糾正任何錯誤。我們首先對用戶輸入進行了查詢分析,沒有在提示中提供任何關(guān)于有效作者姓名的信息。這與我們最初進行的基線測試相同。然后,我們進行了一個后續(xù)步驟,取作者字段中的姓名,找到最相似的有效姓名。

基于嵌入相似性的選擇法

首先,我們使用嵌入法進行了相似性檢查。

我們發(fā)現(xiàn),使用這種方法,GPT-3.5能夠正確處理83%的案例。這種方法比以前的方法快得多,也便宜得多,平均只需要0.66秒就能完成,總成本僅為0.001美元。

基于NGram相似性的選擇法

最后,我們嘗試使用3-gram向量化器進行相似性檢查。

我們發(fā)現(xiàn),使用這種方法,GPT-3.5能夠正確處理74%的案例。這種方法同樣比以前的方法快得多,也便宜得多,平均只需要0.48秒就能完成,總成本僅為0.001美元。

結(jié)論

我們對處理高基數(shù)分類值的查詢分析方法進行了多種基準測試。我們限制了自己只能進行一次LLM調(diào)用,這是為了模擬現(xiàn)實世界中的延遲限制。我們發(fā)現(xiàn),使用LLM后基于嵌入相似性的選擇方法表現(xiàn)最佳。

還有其他方法值得進一步測試。特別是,在LLM調(diào)用之前或之后尋找最相似的分類值有許多不同的方法。此外,本數(shù)據(jù)集中的類別基數(shù)并不像許多企業(yè)系統(tǒng)所面臨的那樣高。這個數(shù)據(jù)集大約有10,000個值,而許多現(xiàn)實世界中的系統(tǒng)可能需要處理的是數(shù)百萬級別的基數(shù)。因此,對更高基數(shù)的數(shù)據(jù)進行基準測試將是非常有價值的。

本文轉(zhuǎn)載自?? AI小智??,作者: AI小智


收藏
回復
舉報
回復
相關(guān)推薦
日韩黄色片在线观看| 午夜伦理精品一区| 黑人欧美xxxx| 精品乱色一区二区中文字幕| 英国三级经典在线观看| 久久伊人久久| 精品日韩美女的视频高清| 精品国产一区二区三区四区阿崩| 国产精品久久久免费| 在线一区二区日韩| 神马久久久久| 成人免费视频视频在线观看免费 | 国产一区二区三区四区五区3d| 亚洲欧美电影一区二区| 日本一区二区精品视频| 风间由美性色一区二区三区四区| 日韩一区二区三区视频在线| 鲁一鲁一鲁一鲁一av| 久久久精品午夜少妇| 久久久久久久爱| 麻豆福利在线观看| 亚洲一区免费在线观看| 久久人妻无码一区二区| 欧美日韩国产探花| 97视频在线观看视频免费视频| 成人精品久久| 亚洲美女在线视频| 韩国精品视频| 亚洲国产精品精华液2区45| 国产一区二区三区奇米久涩| 亚洲成人偷拍| 精品国产露脸精彩对白| 自拍偷拍一区二区三区四区| 亚洲视频小说图片| 日本香蕉视频在线观看| 性欧美暴力猛交另类hd| 国产女精品视频网站免费| 伊人久久高清| 91精品国产色综合久久不卡蜜臀 | 国内免费精品永久在线视频| japanese色国产在线看视频| 亚洲成精国产精品女| 97成人在线观看视频| 国产一区二区三区免费播放| 97久久夜色精品国产九色| 一本久久青青| 91精品国产99久久久久久| 日本久久二区| 亚洲乱码一区二区| 蜜桃一区二区三区| 久久99精品国产99久久6尤物| 草草在线观看| 精品三级在线看| 午夜小视频在线| 欧美日韩亚洲精品内裤| 欧美xxx性| 亚洲精品99久久久久| 91亚洲精选| 欧美视频国产精品| 欧美日韩在线一区二区三区| 亚洲精品成人影院| 国产精品综合不卡av| 国产成人综合自拍| 中文精品视频一区二区在线观看| 在线一区电影| 国产精品一区电影| 久国产精品韩国三级视频| 精品国产乱码久久久久久郑州公司 | 成人在线视频网| 五月天婷婷激情视频| 国产精品成人免费视频| yw.尤物在线精品视频| 日韩av在线免播放器| 国产美女精品写真福利视频| 国产精品高精视频免费| av一区二区三区黑人| 黄色大片中文字幕| 国产精品资源在线| 97碰在线视频| 欧美军同video69gay| 伦理片一区二区三区| 欧美视频日韩视频在线观看| 国产黄色在线免费观看| 亚洲无线码在线一区观看| 97在线观看免费观看高清| 亚洲国产精品成人av| 女女色综合影院| 91福利视频久久久久| 久草在线看片| 久操成人在线视频| 国产精品18久久久久久久久久久久| 在线免费观看黄色网址| 国产精品亚洲精品| 亚洲人成小说网站色在线| 久久视频社区| 337p粉嫩大胆噜噜噜鲁| 亚洲网站在线播放| 久久精品人人做人人爽电影蜜月| 在线看小视频| 欧美日韩国产综合一区二区三区| 1024在线播放| 色综合影院在线| 久久精品论坛| 91久久久久久久久久| **欧美大码日韩| 蜜桃视频在线播放| 国产精品视频999| 经典三级在线| 亚洲国产欧美一区二区三区同亚洲| 九九精品久久| 欧美精品成人网| 国产69精品久久99不卡| 免费看污污网站| 亚洲视频在线观看三级| 亚洲欧洲国产精品一区| 国产日韩欧美在线看| 国产精品久久国产愉拍| 国产h视频在线观看| 亚洲国产另类久久精品| 日韩国产成人精品| 91破解版在线观看| 青青草综合在线| 色哟哟入口国产精品| 久久综合久久鬼色中文字| 天堂av网在线| 99视频在线免费观看| 日韩二区三区在线观看| 国产精品成人一区二区| 国产精品久久久99| 777.av| 日本丶国产丶欧美色综合| 亚洲小说欧美另类社区| 精品无码国产一区二区三区av| 亚洲激情图片qvod| av毛片在线播放| 日韩一区二区电影在线观看| 欧美韩国一区二区| 日本www在线观看视频| 精品欧美一区二区精品久久| 精品少妇一区二区三区日产乱码| 国产精品综合在线视频| 警花av一区二区三区| av免费高清观看| 亚洲国产精品资源| 成人午夜私人影院| 精品久久ai电影| 男女视频在线观看| 影音先锋亚洲视频| 欧美精品videos| 色老综合老女人久久久| 看片的网站亚洲| 在线观看免费网站| 久久久久久久有限公司| 日韩码欧中文字| 午夜性色一区二区三区免费视频| aa免费在线观看| 在线播放一区二区三区| 日本一区福利在线| 黄色一级片网址| 在线观看一区二区视频| 成人激情自拍| 黄色一级片网址| 性欧美激情精品| 欧美日韩一区二区在线观看视频| 国产一区二区三区精品欧美日韩一区二区三区| 国产日韩在线观看视频| 一区二区在线不卡| 韩国国内大量揄拍精品视频| 精品国产鲁一鲁一区二区张丽| 日韩激情欧美| caoporn国产精品免费视频| 国产精品福利在线观看| 日韩一区二区三区免费看 | 国产成人免费在线视频| 宅男在线一区| 激情aⅴ欧美一区二区欲海潮| 97操碰视频| 久久精品国产亚洲一区二区 | 精品国产一区二区三区麻豆小说| 国产亚洲精品激情久久| 亚洲成人激情av| 午夜a一级毛片亚洲欧洲| 国产又黄又大又粗视频| 国产美女高潮久久白浆| 中文字幕国产亚洲| 欧美日韩中文字幕一区| 国产精品国产三级国产普通话三级 | 1000精品久久久久久久久| 国产精品免费看| 久久久精品区| 少女频道在线观看免费播放电视剧 | 91美女精品福利| 亚洲欧洲高清| 在线视频中文字幕久| 国产精品成人品| 亚洲一级黄色片| 91精品国模一区二区三区| 一区二区三区**美女毛片| 国产伦精品一区二区三区视频| 另类图片亚洲色图|