国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大型語言模型是否解決了搜索問題? 原創(chuàng)

發(fā)布于 2025-3-13 12:06
瀏覽
0收藏

盡管LLM在內(nèi)容生成方面表現(xiàn)出色,但需要采用語義分塊和向量嵌入等技術(shù)來解決復(fù)雜數(shù)據(jù)環(huán)境中的搜索問題。

大型語言模型(LLM)的涌現(xiàn)推動了信息檢索和人機交互的范式轉(zhuǎn)變。這些模型在大量的文本語料庫上進行訓(xùn)練,并針對預(yù)測語言任務(wù)進行了優(yōu)化,在響應(yīng)查詢、總結(jié)文本內(nèi)容和生成上下文相關(guān)信息方面展現(xiàn)出了顯著成效。

然而,盡管LLM具有令人印象深刻的生成能力,但它們并不能從本質(zhì)上解決結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)環(huán)境中搜索和檢索的復(fù)雜性。與其相反,它們需要使用語義分塊、向量嵌入和上下文感知個性化等先進技術(shù)進行增強,以提高優(yōu)化精度和召回率。

本文探討了LLM在解決搜索問題方面的固有局限性,強調(diào)了內(nèi)容生成和檢索效率之間的脫節(jié)。本文探討了通過復(fù)雜的索引、排序和上下文過濾方法來增強它們在搜索架構(gòu)中效用的策略,并采用案例研究的方法來揭示LLM在信息檢索過程中的幕后操作。

案例研究:餐館老板的查詢

以華盛頓州西雅圖的一位餐館老板為例,這名用戶正在研究在紐約開設(shè)餐廳的政策,并尋求有關(guān)薪酬、工作時間和許可要求的信息?,F(xiàn)在,想象一下開發(fā)一個基于LLM的聊天機器人為美國各地的餐館老板提供幫助,這需要了解美國各州縣的政策細節(jié)。

內(nèi)容生成與檢索之間的差異

企業(yè)搜索系統(tǒng)的一個主要挑戰(zhàn)是內(nèi)容創(chuàng)建和以用戶為中心的信息檢索之間的不對稱性。技術(shù)文檔、公司政策和特定領(lǐng)域的知識庫通常以異構(gòu)的、非結(jié)構(gòu)化的格式存在,使得高效檢索變得困難。雖然LLM可以從這些語料庫中提取和綜合見解,但它們依賴于概率令牌排序的依賴而不是確定性索引機制,導(dǎo)致了結(jié)果精度存在可變性和不一致性。

傳統(tǒng)的搜索架構(gòu)利用元數(shù)據(jù)驅(qū)動的索引、基于關(guān)鍵字的檢索啟發(fā)式和相關(guān)性排序算法來增強文檔的可發(fā)現(xiàn)性。相比之下,LLM優(yōu)先考慮流暢性和上下文連貫性,而不是嚴格的事實檢索,這常常導(dǎo)致幻覺——雖然在語法上看似合理,但在事實上可能不準確,或者在語義上與用戶意圖不一致。

LLM本質(zhì)上是無狀態(tài)的設(shè)計

LLM的一個關(guān)鍵方面是它們的無狀態(tài)特性:除了單一的輸入-輸出交換之外,它們不會保留過去交互的記憶。除非在輸入提示符中明確地提供會話上下文,否則每個查詢都是獨立處理的。

然而,像ChatGPT和Claude這樣的應(yīng)用程序似乎記住了上下文。這是通過應(yīng)用程序?qū)拥募夹g(shù)實現(xiàn)的,例如:

  • 對話歷史記錄。在提示符中傳遞先前的交互以維護上下文。
  • 外部API。集成實時數(shù)據(jù)源以更新信息。
  • 基于對話的架構(gòu)。實現(xiàn)跟蹤和管理對話的邏輯。
  • 個性化。存儲用戶屬性以定制響應(yīng)。

從本質(zhì)上來說,LLM本身并不保留過去的對話。與其相反,應(yīng)用程序必須在每個提示符中提供相關(guān)的歷史上下文。各種優(yōu)化可以提高效率,例如總結(jié)之前的對話而不是包括整個歷史記錄。目前可以假設(shè)應(yīng)用程序所有者將三個主要輸入傳遞給LLM:

  • 最新用戶查詢。
  • 通過用戶屬性對用戶進行個性化設(shè)置。
  • 對話歷史。

大型語言模型是否解決了搜索問題?-AI.x社區(qū)

走向搜索:RAG如何在搜索中變得相關(guān)

在上述設(shè)計中,如果只傳遞三個輸入(用戶查詢、用戶屬性和對話歷史),則LLM僅依賴其預(yù)訓(xùn)練的知識進行回應(yīng),其中可能不包括最新的策略更新。為了解決這個問題,需要第四個輸入——相關(guān)的政策文件。這就是檢索增強生成(RAG)發(fā)揮重要作用的地方:

  • 檢索。從AWS S3或數(shù)據(jù)庫等源獲取最新的策略文檔。
  • 增強。將檢索到的內(nèi)容合并到提示符中。
  • 生成。使用增強提示來生成響應(yīng),確保LLM優(yōu)先考慮實時和準確的信息而不是預(yù)先訓(xùn)練的知識。

RAG的關(guān)鍵方面是指導(dǎo)LLM依賴檢索到的文檔而不是過時的訓(xùn)練數(shù)據(jù),從而顯著提高響應(yīng)的相關(guān)性和準確性。

在當(dāng)前的設(shè)計中,如果僅傳遞用戶查詢、用戶屬性和對話歷史這三個輸入,LLM將完全依賴于其預(yù)訓(xùn)練的知識。盡管它可能在訓(xùn)練過程中遇到過相關(guān)政策,但其回應(yīng)存在過時甚至錯誤的風(fēng)險,因為這些回應(yīng)反映的是訓(xùn)練時的政策狀態(tài),而不是實時更新的政策狀態(tài)。

為了確保準確性,必須引入第四種輸入——相關(guān)的政策文件。由于LLM是無狀態(tài)的,它們在會話之后不會保留先前的知識。為了整合實時策略,系統(tǒng)必須在將文檔傳遞到提示符之前下載、解析和格式化文檔。這種結(jié)構(gòu)化的方法確保響應(yīng)是基于當(dāng)前的政策,而不是過時的訓(xùn)練數(shù)據(jù)。

通過明確地指導(dǎo)LLM依賴于檢索的文檔,RAG彌合了搜索和生成之間的差距,將LLM轉(zhuǎn)換為動態(tài)的實時知識系統(tǒng),而不是靜態(tài)的信息存儲庫。以下顯示了更新后的提示,其中包括將政策文檔作為LLM的另一個輸入。

大型語言模型是否解決了搜索問題?-AI.x社區(qū)

LLM的上下文窗口的硬件限制是什么?

由于計算和內(nèi)存限制,LLM具有固定的上下文長度。LLM的上下文窗口指的是模型在單個輸入提示符中可以處理的令牌(單詞、子詞或字符,具體取決于模型)的最大數(shù)量。這包括輸入文本和生成的輸出。上下文窗口的大小是模型構(gòu)施加的硬件限制;例如,GPT-4有128K的限制,而Claude Sonnet有200K的限制。

如果輸入超過這一限制,則必須使用以下技術(shù)截斷或處理:

  • 滑動窗口。保留最近的令牌并丟棄舊的令牌。
  • 摘要。壓縮過去的互動以適應(yīng)限制。
  • 內(nèi)存增加。使用外部存儲(例如矢量數(shù)據(jù)庫)動態(tài)地檢索相關(guān)的過去交互。
  • 挑選相關(guān)的文檔。當(dāng)使用RAG時,技巧是從文檔中挑選最相關(guān)的部分以適應(yīng)上下文長度。

當(dāng)組合大小超過文檔上下文窗口時,如何跨文檔搜索

必須將幾種高級方法集成到檢索管道中,以解決LLM在為RAG場景搜索大量文檔時的局限性。

在主要的企業(yè)級聊天機器人應(yīng)用中,遵循以下架構(gòu)來解決這個問題:

大型語言模型是否解決了搜索問題?-AI.x社區(qū)

1.多格式數(shù)據(jù)提取的高級解析

企業(yè)知識庫通常包括各種文檔格式,包括純文本(.txt)、標記(.md、.html)、結(jié)構(gòu)化數(shù)據(jù)(.csv、.xlsx)、格式化報告(.pdf、.docx),有時甚至是圖像形式。必須采用強大的解析技術(shù)來提取和規(guī)范這些格式的數(shù)據(jù),以促進無縫檢索。

例如,如果想讓圖像信息成為搜索的一部分,LLM也用于對文檔進行語義解析以從圖像中獲取信息?;旌辖馕龇椒▽⒒谝?guī)則的提取與人工智能驅(qū)動的文本結(jié)構(gòu)相結(jié)合,可以顯著提高文檔的可訪問性。

2.上下文粒度的分塊處理

將廣泛的語篇語料庫分解為語義有意義的單元,提高了可檢索性和語境一致性。各種分塊方法包括:

  • 固定長度分段。按預(yù)定義的令牌閾值拆分文本(例如300個令牌),以確保統(tǒng)一的可檢索性。
  • 重疊分塊。保持一定程度的內(nèi)容重疊,以保持連續(xù)塊之間的上下文連續(xù)性。
  • 分層分塊。文本結(jié)構(gòu)化為嵌套段,以促進多層級檢索粒度。
  • 語義聚類?;谠~匯相似性和概念一致性的文本聚合,而不是任意的令牌限制。

3.向量嵌入和高維搜索優(yōu)化

LLM可以生成文本數(shù)據(jù)的密集向量表示,通過高維向量搜索方法實現(xiàn)基于相似性的檢索。主要優(yōu)勢包括:

  • 增強查詢與相關(guān)文檔的語義匹配。
  • 通過神經(jīng)相關(guān)性評分的搜索結(jié)果的上下文感知排名。
  • 基于用戶特定交互歷史的自適應(yīng)個性化。
  • 多模態(tài)檢索,集成文本和非文本數(shù)據(jù)源。

4.精度優(yōu)化的重新排序機制

為了確保檢索結(jié)果與用戶意圖一致,必須采用復(fù)雜的重新排序策略。有效的重新排序方法包括:

  • TF-IDF和BM25評分。優(yōu)先考慮術(shù)語相關(guān)性的統(tǒng)計加權(quán)技術(shù)。
  • 神經(jīng)關(guān)聯(lián)模型。基于機器學(xué)習(xí)的自適應(yīng)優(yōu)化搜索輸出排序的排序機制。
  • 混合檢索架構(gòu)。將關(guān)鍵字索引與基于向量的檢索相結(jié)合,以實現(xiàn)全面的排名優(yōu)化。

5.通過用戶分析實現(xiàn)上下文個性化

結(jié)合特定于用戶的屬性(例如角色、位置和訪問級別),可以提高搜索結(jié)果的準確性。系統(tǒng)檢索最相關(guān)的文檔,并根據(jù)用戶特定的屬性對它們進行排序,以確保與訪問權(quán)限的相關(guān)性和遵從性。LLM可以通過利用動態(tài)用戶分析來根據(jù)個人用戶的上下文框架定制響應(yīng),從而提高搜索效率。

走向混合搜索框架:LLM與傳統(tǒng)檢索系統(tǒng)的融合

為了充分利用LLM在搜索中的能力,將語義向量索引與人工智能驅(qū)動的排名模型集成在一起的混合檢索架構(gòu)勢在必行。以下增強是改進這種混合范式的關(guān)鍵:

  • 特定領(lǐng)域的微調(diào)。針對專門語料庫的定制LLM培訓(xùn),以提高特定領(lǐng)域的準確性。
  • 動態(tài)搜索過濾器。上下文感知過濾,根據(jù)用戶意圖和元數(shù)據(jù)參數(shù)調(diào)整檢索約束。
  • 多模式集成。將搜索功能擴展到文本之外,以包含結(jié)構(gòu)化數(shù)據(jù)、表格內(nèi)容和可視化信息。

提示優(yōu)化策略。實現(xiàn)緩存、響應(yīng)路由和查詢預(yù)處理,以最大限度地減少生成延遲和幻覺風(fēng)險。

用于改進語義搜索的其他模式

結(jié)合以下先進技術(shù),以提高基于RAG檢索系統(tǒng)的檢索階段。通過結(jié)合這些策略,基于RAG的搜索系統(tǒng)提高了檢索準確性、上下文相關(guān)性和響應(yīng)效率,使它們在實際應(yīng)用程序中更加可靠。

特定領(lǐng)域的嵌入

通用嵌入可能無法捕捉諸如醫(yī)學(xué)、法律或金融等專業(yè)領(lǐng)域的細微差別。通過在特定領(lǐng)域的語料庫上訓(xùn)練嵌入,可以確保向量表示與相關(guān)術(shù)語、上下文和語義更緊密地一致。這提高了基于相似度的檢索的準確性,使搜索結(jié)果更精確,更符合上下文。

高級解析

許多企業(yè)知識庫包含各種文檔格式,例如PDF、電子表格、HTML頁面和掃描圖像。從這些格式中提取結(jié)構(gòu)化信息需要人工智能支持的解析技術(shù),包括掃描文檔的光學(xué)字符識別(OCR)、表格數(shù)據(jù)的基于規(guī)則的提取以及非結(jié)構(gòu)化文本的基于NLP的結(jié)構(gòu)化。正確的解析確保信息無論格式如何,都可以訪問和搜索。

動態(tài)過濾器

通過應(yīng)用基于元數(shù)據(jù)、用戶意圖和上下文約束的動態(tài)過濾機制,可以顯著提高搜索精度。例如,可以根據(jù)用戶的位置、日期范圍、文檔類型或訪問權(quán)限應(yīng)用過濾器,從而確保檢索的結(jié)果高度相關(guān)和個性化。這些過濾器可以優(yōu)化搜索輸出并減少結(jié)果中的噪聲。

表格數(shù)據(jù)和圖像處理

傳統(tǒng)的搜索系統(tǒng)難以處理非文本數(shù)據(jù),例如表格、圖表和圖像。將表格數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化嵌入允許檢索模型識別數(shù)據(jù)點內(nèi)的模式和關(guān)系。同樣,圖像到文本模型和多模式嵌入使搜索系統(tǒng)能夠處理和檢索相關(guān)的視覺內(nèi)容,從而將搜索功能擴展到傳統(tǒng)的基于文本的方法之外。

排序和重新排序

一旦檢索到文檔,就必須對它們進行排序,以優(yōu)先考慮最相關(guān)的文檔。將BM25和TF-IDF等傳統(tǒng)排序技術(shù)與神經(jīng)重新排序模型相結(jié)合,改進了結(jié)果排序。混合排名策略確保搜索結(jié)果與語義意圖保持一致,減少了對關(guān)鍵字匹配的依賴,并提高了復(fù)雜搜索查詢的準確性。

提示緩存和路由

為類似的請求反復(fù)查詢LLM的效率很低。提示緩存是LLM框架中的一項新技術(shù),用于存儲經(jīng)常使用的查詢和響應(yīng),從而顯著降低計算成本和延遲。此外,提示路由通過最合適的檢索管道引導(dǎo)查詢,從而優(yōu)化資源使用并縮短響應(yīng)時間。這可以確保用戶在保持效率的同時獲得更快、更相關(guān)的結(jié)果。

結(jié)論

雖然LLM在搜索能力方面帶來了革命性的進步,但它們還沒有消除結(jié)構(gòu)化檢索框架的必要性。語義分塊、基于向量的索引、動態(tài)用戶分析以及復(fù)雜的排序啟發(fā)式的集成對于提高搜索精度仍然至關(guān)重要。尋求利用LLM進行企業(yè)搜索的組織必須采用多種方法,將人工智能的生成優(yōu)勢與傳統(tǒng)搜索方法的確定性和嚴謹性相結(jié)合。

最終,搜索的發(fā)展可能會趨同于一種混合范式——在這種范式中,LLM會增強而不是取代現(xiàn)有的檢索技術(shù)。通過持續(xù)的改進和戰(zhàn)略增強,可以有效地利用LLM來創(chuàng)建更直觀、上下文感知和準確的搜索體驗,減輕其固有的局限性,并開辟信息檢索的新領(lǐng)域。
原文標題:??Have LLMs Solved the Search Problem???,作者:Avi Dubey

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-3-13 14:31:58修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美**字幕| 色噜噜狠狠色综合中国 | 国产欧美一区二区三区另类精品| 黄网站在线免费看| 国产午夜精品久久久久久久| 欧美成人综合一区| 一二三四社区在线视频6| 久久成人免费电影| 欧亚洲嫩模精品一区三区| 免费国产黄色网址| 国产成人精品123区免费视频| 奇米在线7777在线精品| 国产成人激情视频| 日本aⅴ中文| 国产成人99久久亚洲综合精品| 999国内精品视频在线| 日韩在线精品强乱中文字幕| 亚洲国产日韩精品在线| 97精品国产97久久久久久粉红| 欧美色图天堂| 亚洲尤物在线视频观看| 中文字幕视频一区二区在线有码| 四虎免费在线观看视频| 韩国在线一区| 欧美一级日韩不卡播放免费| 午夜丝袜av电影| 国产女同性恋一区二区| 国产 国语对白 露脸 | 国产精品中文字幕制服诱惑| 亚洲欧洲国产一区| av免费不卡国产观看| 欧美日韩国产小视频在线观看| 国产一区二区不卡视频| 天堂99x99es久久精品免费| 最新的欧美黄色| 精品无人乱码一区二区三区 | 精品欧美一区二区三区久久久| 成人在线免费看| 亚洲国产精品久久艾草纯爱| 可以免费看污视频的网站| 99成人在线视频| 青青久久av北条麻妃黑人| 国产精品日本一区二区三区在线| 亚洲欧洲日产国产综合网| 成人免费视频97| 欧美日韩在线观看视频小说| 欧美在线视频日韩| 九色网友自拍视频手机在线| 成片免费观看视频| 污视频在线观看免费| 最新国产成人在线观看| 视频二区在线播放| 午夜精品久久| 91在线精品视频| 亚洲国产日本| 色涩成人影视在线播放| 一区二区日韩| 国自在线精品视频| 精品国产乱码久久久久久果冻传媒 | 国产欧美日韩在线观看视频| 日韩av电影在线播放| 影视先锋久久| 日韩午夜激情电影| 午夜小视频在线观看| 91色porny在线视频| avav在线看| 欧美久久一级| 久久精品国产精品国产精品污 | 日韩毛片高清在线播放| 一级片免费视频| 欧美日韩综合色| 欧美韩国日本在线| 国产精品高潮呻吟久久| 在线成人福利| 欧美日韩精品是欧美日韩精品| 亚洲小说区图片| 在线日韩第一页| 成人好色电影| 日韩av中文字幕在线免费观看 | 五月花成人网| 日韩天堂在线视频| 我不卡手机影院| 色之综合天天综合色天天棕色| 国产精品99久久久久久久vr| 日韩一级片播放| 日韩欧美亚洲成人| 男人插女人下面免费视频| 亚洲在线成人精品| 中文字幕免费高清电视剧网站在线观看 | 波多野结衣之无限发射| 樱桃视频在线观看一区| 999久久欧美人妻一区二区| 欧美国产日韩亚洲一区| 亚洲欧洲久久| 99久久99久久精品国产片桃花 | 视频在线观看国产精品| 国产亚洲欧美在线视频| 日韩精品一级中文字幕精品视频免费观看| 综合国产精品久久久| 牛牛国产精品| 大地资源网在线观看免费官网| 欧美日韩三级| www.avtt| 天天色天天操综合| 久久精品资源| 久久爱av电影| 亚洲特黄一级片| av成人 com a| 国产这里只有精品| 不卡的av在线播放| 性开放的欧美大片| 高清亚洲成在人网站天堂| 国产精品久久久久77777丨| 国产精品你懂得| 你懂的视频欧美| 小说区视频区图片区| 欧美午夜片欧美片在线观看| 免费一级欧美片在线观看网站| 色噜噜国产精品视频一区二区| 97精品国产一区二区三区 | 精品日韩在线一区| 国产欧美久久一区二区三区| 400部精品国偷自产在线观看 | 日本精品一区二区三区四区 | 色哟哟一区二区在线观看| 粉嫩一区二区三区在线观看| 精品欧美一区二区三区久久久| 亚洲精品乱码久久久久| 欧美性片在线观看| 日韩欧美一区二区三区四区 | 亚洲成人免费视频| 免费一级欧美在线大片| 亚洲视频在线二区| 欧美午夜影院一区| 一二三四社区欧美黄| 九色国产在线观看| 55夜色66夜色国产精品视频| 成人综合婷婷国产精品久久蜜臀| 国产成人无吗| 精品国产第一页| 欧美性生交xxxxxdddd| 亚洲小说图片| 国产激情99| 97超级碰碰碰| 国产亚洲一区二区在线观看| 玛雅亚洲电影| 在线无限看免费粉色视频| 日韩免费福利电影在线观看| wwwwxxxx在线观看| 国产日韩亚洲精品| 91黄视频在线观看| 欧美日韩国产传媒| 免费成年网站| 日本道色综合久久影院| 专区另类欧美日韩| 亚洲国产精品嫩草影院久久av| www.午夜色| 在线a欧美视频| av成人动漫在线观看| 天海翼女教师无删减版电影| 日韩人体视频一二区| 日韩国产一区| 天堂а在线中文在线无限看推荐| 国产精品专区h在线观看| 久久青草久久| 91视频在线观看| 欧美日韩另类丝袜其他| 欧美成人三级在线| 久久精品72免费观看| 色总=综合色| 欧美午夜精品久久久久久超碰| 在线一区电影| 夜级特黄日本大片_在线| 久久精品美女| 日韩精品视频在线播放| 成人精品国产免费网站| 欧美久久一区二区三区| gogo人体高清视频| 91在线|亚洲| 亚洲大胆人体视频| 精品一区毛片| 色中色在线视频| 精品一区二区三区自拍图片区 | 欧美亚洲国产成人| 久久伊人色综合| 亚洲欧美乱综合| 欧美日本一区| 久久免费电影| 狠狠爱免费视频| 国产精品人成电影在线观看| 色综合久久久久| 中文字幕一区二区三区免费视频| 午夜激情一区二区三区| 亚洲精品九九| 最新欧美电影| 中文字幕4区| 亚洲精品一区二区三区四区五区 | 亚洲aaa激情| 亚洲国产成人精品一区二区| 久久精品亚洲一区二区三区浴池 |