国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

如何改進Agents的推理與規劃?

發布于 2024-7-26 11:45
瀏覽
0收藏

如果你詢問任何正在使用大型語言模型(LLM)構建智能代理的開發者,他們很可能會告訴你,智能代理在規劃和推理方面的不足是影響其可靠性的一個主要問題。

  • 智能代理的規劃究竟是什么?
  • 目前人們是如何克服這一缺陷的?
  • 我們對智能代理未來規劃和推理的發展趨勢有何預測?

接下來的文章將一一解答這些問題。

編輯注:本文經翻譯并二次整理自planning-for-agents一文。

規劃和推理的真正含義是什么?

智能代理的規劃和推理,指的是它如何思考并決定采取哪些行動,這既包括短期行動也包括長期行動。LLM需要評估所有可用信息,然后決定需要采取哪些步驟,以及當前應該首先執行哪一步。

大多數情況下,開發者會使用函數調用技術來讓LLM選擇要執行的行動。這項技術最初由OpenAI在2023年6月引入,隨后在2023年末至2024年初被其他公司采納。通過函數調用,開發者可以為不同的函數提供JSON格式的模式,并讓LLM生成符合這些模式的對象。

函數調用主要用于讓智能代理選擇立即要執行的行動。然而,要成功完成一個復雜的任務,通常需要按照順序執行一系列行動。對于LLM來說,進行長期規劃和推理是一項更具挑戰性的任務,原因有二:首先,LLM需要考慮一個長期目標,然后迅速回到需要立即執行的短期行動;其次,隨著智能代理執行的行動越來越多,這些行動的結果會反饋給LLM,導致上下文窗口擴大,可能會使LLM分心,影響其性能。

和LLM世界中的大多數事物一樣,很難準確衡量當前模型在規劃和推理方面的表現。有一些合理的基準測試,比如Berkeley Function Calling Leaderboard,用于評估函數調用的能力。我們也進行了一些研究,以評估多步驟應用的效果。但最好的方法是為你的特定問題構建一個評估集,并嘗試自己進行評估。

??根據經驗,我們可以得出一個普遍的結論:規劃和推理目前還沒有達到現實世界任務所需的水平。

如何改進智能代理的規劃能力?

改進智能代理規劃能力的一個簡單方法是確保LLM擁有進行合理規劃和推理所需的所有必要信息。雖然這聽起來很基礎,但實際上,傳入LLM的提示往往沒有包含足夠的信息。增加一個檢索步驟或澄清提示指令,可以輕松地實現改進。這就是為什么實際查看數據并了解LLM實際看到的內容至關重要。

接下來,我建議你嘗試改變你的應用程序的認知架構。這里所說的“認知架構”,指的是你的應用程序用于推理的數據工程邏輯。你可以考慮兩種類型的認知架構來提高推理能力:通用認知架構和特定領域認知架構。

通用認知架構與特定領域認知架構

通用認知架構試圖以一種通用的方式實現更好的推理,可以應用于任何任務。例如,“計劃和解決”架構,這篇論文提出了一種先制定計劃,然后執行計劃中每個步驟的架構。另一個例子是Reflexion架構,這篇論文探討了在智能代理完成任務后增加一個明確的“反思”步驟,以評估任務是否完成得當。

盡管這些想法顯示出了一定的改進,但它們通常對于生產環境中的智能代理來說過于通用。相反,我們看到智能代理通常采用特定領域的認識架構。這通常體現在特定領域的分類/路由步驟、特定領域的驗證步驟等方面。一些關于規劃和反思的通用思想可以在這里應用,但它們通常是以特定領域的方式應用的。

以AlphaCodium論文為例,它通過使用所謂的“流程工程”(談論認知架構的另一種方式),實現了最先進的性能。下面是一個他們使用的流程圖。

如何改進Agents的推理與規劃?-AI.x社區AlphaCodium流程圖

這個流程非常特定于他們試圖解決的問題。他們告訴智能代理按步驟做什么 - 想出測試,然后想出解決方案,然后迭代更多的測試等。這種認知架構高度特定于領域 - 它不會幫助您寫文章,例如。

為什么特定領域認知架構如此有幫助?

我傾向于從兩個角度來看待這個問題。

首先:你可以將這視為向智能代理傳達它應該做什么的另一種方法。你可以通過提示指令或在代碼中硬編碼特定的轉換來傳達指令。任何一個都是有效的!代碼是極好的傳達你想要發生的事情的方式。

其次:這本質上是從我們作為工程師的角度,將規劃責任從LLM中移除。我們基本上是在說:“不用擔心規劃,LLM,我會為你做的!”當然,我們并沒有從LLM中移除所有的規劃,因為我們仍然要求它在某些情況下進行一些規劃。

例如,讓我們回顧一下上面的AlphaCodium示例。流程中的步驟基本上是我們為LLM做的規劃!我們告訴它首先編寫測試,然后編寫代碼,然后運行測試等。這可能是作者認為編寫軟件的好計劃。如果他們正在計劃如何解決一個問題,這就是他們會怎么做的。而不是在提示中告訴LLM - 它可能會忽略它,不理解它,沒有所有細節 - 他們通過構建特定領域的認識架構來告訴系統要做什么。

??我們看到的幾乎所有高級“智能代理”實際上都有一個非常特定領域和自定義的認知架構。

我們正在使用LangGraph使構建這些自定義認知架構變得更容易。LangGraph的一個主要關注點是可控性。我們設計LangGraph非常低級和高度可控 - 這是因為我們看到這種可控性是100%需要創建可靠的自定義認知架構。

規劃和推理的未來會是什么樣子?

LLM領域一直在迅速變化和發展,我們在構建應用程序時,尤其是構建工具時,應該牢記這一點。

我目前的立場是,通用推理將越來越多地被吸收到模型層中。模型將變得越來越智能,無論是通過規模還是研究突破 - 似乎很愚蠢去反對這一點。模型也會變得更快,更便宜,所以將大量上下文傳遞給它們將變得越來越可行。

然而,我相信無論模型變得多么強大,你總是需要以某種形式向智能代理傳達它應該做什么。因此,我相信提示和自定義架構將一直存在。對于簡單任務,提示可能就足夠了。對于更復雜的任務,您可能希望將它應該如何行為的邏輯放在代碼中。代碼優先方法可能更快,更可靠,更易于調試,并且通常更容易/更符合邏輯地表達。

我最近在播客上與Sequoia的Sonya和Pat討論了這個話題。他們畫了一個很好的圖表,展示了提示、認知架構和模型的角色/重要性可能如何隨時間演變。

如何改進Agents的推理與規劃?-AI.x社區圖片

所以,盡管LLM的規劃和推理肯定會變得更好,我們也堅信,如果您正在構建特定任務的智能代理,那么您將需要構建一個自定義認知架構。

本文轉載自 ??AI小智??,作者: AI小智

收藏
回復
舉報
回復
相關推薦
欧洲一区二区在线 | 日韩一级免费观看| 99色这里只有精品| 性xxxx丰满孕妇xxxx另类| 精品中文字幕一区二区三区| 99国产精品视频免费观看| 国产午夜精品一区二区三区 | 久久精品欧美日韩| 色一区av在线| 天堂a中文在线| 国产精品18久久久久| 欧美精品高清视频| 麻豆免费看一区二区三区| 91精品国产91综合久久蜜臀| 在线观看视频亚洲| 91在线观看网站| 欧美13一16娇小xxxx| 91首页免费视频| 无码内射中文字幕岛国片| 国产肉体ⅹxxx137大胆| а√最新版在线天堂| 熟妇人妻va精品中文字幕| 玖玖综合伊人| 亚洲第一论坛sis| 久久久久久影视| 日韩中文不卡| 亚洲国产一成人久久精品| 亚洲sss视频在线视频| 黄www在线观看| 91国内精品| 亚洲国产黄色片| 97av中文字幕| 成人午夜sm精品久久久久久久| 在线免费av一区| 在线观看导航| 国产精品综合色区在线观看| 欧美日韩国产在线观看| 4480yy私人影院高清不卡| 国产精品免费视频网站| 美女av免费观看| 欧美日日夜夜| 欧美老女人性视频| 在线观看网站免费入口在线观看国内 | 成人伦理视频网站| 国产日产精品1区| 少妇高清精品毛片在线视频| av在线一区二区| 久久久成人精品视频| 好看的中文字幕在线播放| 欧美一区二区三区小说| 日韩成人影视| 91精品国产综合久久蜜臀| 国产系列在线观看| 欧美中文字幕一区二区三区| 国产一区电影| 毛片av一区二区| 色999五月色| 国产一区二区三区在线观看免费视频 | 日韩中文字幕在线一区| 北条麻妃久久精品| 人人澡人人澡人人看欧美| 亚洲精品欧美精品| 日产欧产美韩系列久久99| 日韩欧美精品一区二区| 精品一区二区三区在线播放| 欧美日韩视频免费在线观看| 懂色av一区二区三区免费看| 91精品国产乱码久久久久久蜜臀| 大伊香蕉精品在线品播放| 欧美一区二粉嫩精品国产一线天| 日韩黄色网络| 成人精品aaaa网站| 久久动漫亚洲| 久久成人福利视频| 亚洲欧美日韩中文播放| 国产在线观看精品一区| 亚洲国产精久久久久久 | 亚洲人xxxx| 青青草手机在线| 日韩一级欧美一级| 国产成+人+综合+亚洲欧美| 久久久免费观看| 亚洲中无吗在线| 色诱女教师一区二区三区| 亚洲爽爆av| 91九色视频导航| 精品午夜久久福利影院| www国产亚洲精品| 精品国产欧美| 国产精品福利小视频| 一本色道久久综合亚洲精品高清| 麻豆视频传媒入口| 一区二区三区在线视频观看| av网址在线播放| 欧美激情综合亚洲一二区| 黄色成人在线网| 波霸ol色综合久久| 色综合久久一区二区三区| 热re99久久精品国产99热| 91捆绑美女网站| 国产二区在线播放| 亚洲一二三在线| 色综合天天爱| 欧美极品少妇无套实战| 偷拍一区二区三区| 麻豆精品蜜桃| 成人h视频在线观看| 北岛玲一区二区三区四区| 在线黄色国产视频| 一区二区福利视频| а√最新版天堂中文在线| 青青草综合在线| 中文字幕在线成人| 日韩精品91亚洲二区在线观看 | 97在线免费观看| 亚洲视频高清| 这里只有精品视频在线| 5858s免费视频成人| 九九视频精品全部免费播放| 亚洲视频一区二区| 香蕉av一区二区| 国产精品va无码一区二区| 欧美日韩三级一区| 久久综合影院| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 91精品国产综合久久精品app| 麻豆成人入口| 青青草视频国产| 欧美日韩一级二级三级| 国产最新精品| 亚洲欧美在线精品| 中文字幕日韩在线观看| 日韩经典中文字幕一区| 青青国产在线| 欧美在线视频观看| 久久久蜜桃精品| 蜜桃精品在线| 亚洲蜜桃在线| 91麻豆精品国产| 66视频精品| 一级免费视频| 91sao在线观看国产| 久久久91精品国产一区二区三区| 欧洲天堂在线观看| 999福利在线视频| 亚洲第一精品福利| www.成人69.com| 在线亚洲午夜片av大片| 久久久777| 麻豆影视在线| 亚洲在线免费观看| 天天影视网天天综合色在线播放| 亚州精品视频| 91麻豆福利| 26uuu另类亚洲欧美日本一| 久久无码av三级| 亚洲综合视频| 男人天堂999| 爱福利视频一区| 97久久久精品综合88久久| 精品国产免费人成网站| 男女激烈动态图| 影音先锋欧美精品| youjizz久久| 99国内精品久久久久| 国产肥臀一区二区福利视频| 久久999免费视频| 久久久.com| 粉嫩一区二区三区四区公司1| 国产又大又黄又猛| 日韩av电影手机在线观看| 亚洲精品免费看| 国产韩国精品一区二区三区| 免费黄网站在线观看| 欧美人妇做爰xxxⅹ性高电影| 欧美日韩xxxxx| 中国一级大黄大黄大色毛片| 激情se五月| 91网址在线观看| 99thz桃花论族在线播放| 91中文字幕精品永久在线| 亚洲影视一区| 91最新地址在线播放| 久久99国产精品免费网站| 欧美这里有精品| 91精品国产综合久久久久 | 亚洲午夜精品久久久久久性色| 成人网在线免费观看| 国产精品第12页| 3d成人动漫在线| 亚洲成人影音| 国产经典欧美精品| 国产aⅴ综合色| 日本久久成人网| 老牛影视一区二区三区| 一区二区视频免费在线观看| 久久久久久中文| 777.av| 91精品蜜臀一区二区三区在线| 91啪九色porn原创视频在线观看|