国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

NATURAL PLAN:LLMs在自然語言規劃上的基準

發布于 2024-6-21 16:02
瀏覽
0收藏

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

一、結論寫在前面

論文來自Google DeepMind。

論文標題:NATURAL PLAN: Benchmarking LLMs on Natural Language Planning

論文鏈接:??https://arxiv.org/pdf/2406.04520??

論文提出了NATURAL PLAN,一個包含三個關鍵任務(旅行規劃、會議規劃和日歷調度)的自然語言現實規劃基準。論文的評估重點在于LLMs在完全了解任務情況下的規劃能力,通過提供來自Google Flights、Google Maps和Google Calendar等工具的輸出作為模型的上下文。    

這消除了在規劃方面評估LLMs時對工具使用環境的需要。論文觀察到,NATURAL PLAN對當前最先進模型來說是一個挑戰。例如,在旅行規劃任務中,GPT-4和Gemini 1.5 Pro分別僅能達到31.1%和34.8%的解決率。論文發現,隨著問題復雜度的增加,模型性能急劇下降:當涉及10個城市時,所有模型的表現均低于5%,凸顯了當前最先進LLMs在自然語言規劃方面存在顯著差距。

論文還對NATURAL PLAN進行了廣泛的消融研究,進一步揭示了自校正、少樣本泛化以及長上下文情境下的規劃等方法在提升LLM規劃效果上的(不)有效性。

?二、論文的簡單介紹

2.1 論文的背景?

LLM的規劃能力仍遠落后于人類表現。盡管許多近期工作旨在解決這一問題,但沒有反映真實世界應用的現實基準,難以在增強這些模型的規劃能力方面取得有意義的進展。

規劃在機器人學和具身環境中已被廣泛研究。自動化規劃算法已被廣泛應用于此類系統中,以實現規劃功能。在這些場景中,規劃涉及制定一系列行動,當執行這些行動時,可以將代理從一個特定的初始狀態帶到期望的世界狀態。這些系統通常使用規劃域描述語言(PDDL)或答案集編程(ASP)作為規劃器的底層動作語言。盡管最近的工作已經探索了LLM驅動的代理在經典規劃設置中的潛力,但規劃場景并非實際設置,并且它們通常包含模板,而非自然語言。    

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

圖1:旅行規劃任務的示例

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

圖2:會議規劃任務的示例

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

圖3:日歷安排任務的示例

論文引入了NATURAL PLAN,這是一個專為評估大型語言模型(LLMs)處理自然語言描述的規劃任務能力而設計的新基準。NATURAL PLAN包含三種不同的規劃任務,即旅行規劃、會議規劃和日歷調度。對于每項任務,論文從現有工具中收集真實信息。例如,在旅行規劃中,論文查詢Google Flights API,并提供城市間的航班連接信息作為上下文。圖1至圖3展示了這些任務及其相關的谷歌工具,這些工具提供的信息作為上下文。    

2.2 論文的方法--NATURAL PLAN

NATURAL PLAN是一個旨在評估LLMs執行自然語言表達的規劃任務能力的基準。

?2.2.1 數據集類別

NATURAL PLAN包含三個規劃類別:旅行規劃、會議規劃和日歷調度。每個類別旨在捕捉涉及某些工具(如Google Flights)的真實世界規劃任務。論文將工具使用與推理任務分離,并在上下文中提供工具輸出,以確保NATURAL PLAN專注于規劃。論文相信這將顯著簡化評估LLMs規劃過程的復雜性。

2.2.1.1 旅行規劃

旅行規劃是一項任務,專注于在給定約束條件下規劃旅行行程。附錄A展示了一個示例提示及其解決方案。該任務是關于確定訪問NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區個城市的順序。論文添加足夠的約束條件,使得任務只有一個解決方案,從而使得對預測的評估變得直接。

2.2.1.2 會議安排

本部分基準專注于在各種給定約束下安排會議。給定NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區個朋友,該任務提供了會議時間和地點。附錄A展示了一個示例問題。目標是在給定的約束條件下,盡可能多地與朋友見面,這些約束包括地點之間的旅行時間。

2.2.1.3 日歷調度

日歷調度是一項任務,專注于在多人之間根據現有日程和各種約束條件安排工作會面。論文通過改變參與會議的人數和工作的天數來調整任務難度。附錄A展示了一個示例問題。

2.2.2 數據集構建

論文通過使用相應的工具數據并創建各種約束條件,人工合成了NATURAL PLAN數據集。下面描述了每類任務的具體創建過程。    

2.2.2.1 旅行規劃?

論文創建數據集的方式如下:為了創建一個問題,論文從歐洲訪問量最大的48個城市中隨機抽取NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

個城市。論文還隨機抽取總持續時間和在每個城市停留的天數,設為NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區。論文在行程中添加約束條件,要求在特定日期訪問某些城市,例如在旅行中的第3天到第5天在巴黎與朋友見面。作為一個全局約束,論文增加了只使用直飛航班在城市間通行的偏好,排除了如果沒有從NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區的直飛航班,就不能在訪問NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區后訪問NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區的可能性。為了幫助LLM理解連通性約束,論文查詢Google Flights API,并在上下文中提供城市之間的航班連通性信息。

2.2.2.2 會議規劃

對于此數據集類別,論文隨機抽樣人員姓名以安排會議,并相應地抽樣地點。論文還抽樣時間框架,顯示人員的可用性。論文增加了約束條件,例如您將在舊金山訪問一天。在此設置中,目標是要盡可能多地會見朋友。為了使問題更加真實,時間約束/地點遵循現實世界的地點。旅行距離通過查詢Google地圖API的駕駛時間來估算。

表1:NATURAL PLAN任務的統計數據

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

2.2.2.3 日歷調度

數據集的這一部分包括在多個工作日中安排30分鐘或1小時會議的任務,涉及不同數量的與會者。論文實例化了兩個子集:第一個子集固定會議在特定的一天,例如星期一,同時變化與會者的數量在[2, 7]之間;第二個子集固定與會者數量為2,同時變化會議可以安排的工作日數量為1, 5。每個參與會議的人都有他們當天的現有會議安排(第一個子集)或一周(第二個子集),這是通過向每天添加隨機的30分鐘會議直到n小時的會議時間被填滿來創建的。    

論文隨機為每個與會者分配n,以確保一半的與會者有繁忙的日程,意味著他們超過一半的工作時間用于會議,而另一半有較輕的日程,不到一半的工作時間用于會議。每個與會者的連續會議被合并成一個單獨的塊,如圖3所示。一旦論文有了所有與會者的現有日程,論文添加兩種類型的約束:1) 最早可用性;2) 避免在特定時間段內開會,以確保問題有一個單一的解決方案。

2.2.3 統計數據

表1展示了NATURAL PLAN中涉及的行程規劃、會議規劃和日歷調度等多個任務的統計數據。

?2.3 論文的效果

論文進行了一系列實驗,以評估當前最先進的語言模型(LMs)在NATURAL PLAN中規劃任務的表現。

2.3.1 模型

論文實驗了多個頂尖的LLMs:GPT-4(gpt-4-turbo-2024-04-09),GPT-3.5(gpt-3.5-turbo-0125),GPT-4o(gpt-4o-2024-05-13),以及Gemini 1.5 Flash和Pro 。

2.3.2 設置?

少量示例學習 對于NATURAL PLAN中的每個任務,論文提供5個同一任務內的示例作為少量示例,以使LLM通過上下文學習[Brown et al., 2020]從這些示例中學習。此設置還確保輸出可以輕松解析以進行評分。

約束復雜性理解 為了更好地理解LLMs的規劃能力,論文通過控制變量改變每個任務的難度級別。論文通過改變約束條件(如人數、城市數、天數等)進行分析,以更好地理解模型在規劃任務復雜性變化中的行為。

少量示例泛化 論文通過分別提供簡單和困難示例作為上下文示例,進行由易到難和由難到易的泛化研究。例如,在行程規劃中,對于由易到難(由難到易)的泛化,論文提供5個比評估任務實例少(多)2個城市更簡單(困難)的示例。    

自我修正 論文評估模型是否能在NATURAL PLAN中各種任務類別中自我修正其錯誤。論文提示模型識別是否存在任何錯誤,并在必要時進行自我修正。

長上下文中的上下文規劃 論文評估模型如何利用長上下文能力進行規劃中的上下文學習。論文將測試集分為80%和20%,其中80%用作上下文示例,同時論文在20%的測試集上評估模型性能。論文將使用的少量示例數量增加到800個。

評估 論文解析LLM的輸出,并與黃金計劃進行比較。論文計算LLM生成的計劃與黃金計劃完全匹配(EM)的分數。

2.3.3 結果與分析

表2:5種模型在NATURAL PLAN上的準確性

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

2.3.3.1 結果

表2展示了在5次嘗試設置中,各種LLM在NATURAL PLAN任務中的表現。論文從結果中得出以下見解。

所有模型在NATURAL PLAN上的表現都不佳。Gemini 1.5 Pro在旅行規劃和日歷調度上表現最佳,而GPT-4在會議規劃上表現最佳。

在旅行規劃中,Gemini 1.5 Pro達到34.8%的準確性,而GPT-4為31.1%。特別是,論文觀察到GPT-4o僅為3.7%。進一步分析顯示,GPT-4o在理解和遵守航班連接和旅行日期限制方面遇到困難,更多詳細分析見附錄D。在會議規劃上,GPT-4和GPT-4o分別達到47%和45.29%的準確性,而Gemini 1.5 Pro為39.1%。對于日歷調度,Gemini 1.5 Pro以48.9%的準確性超過了GPT-4和GPT-4o。

在NATURAL PLAN的三個任務中,旅行計劃是其中最難的,最佳準確率僅為34.8%。值得注意的是,所有模型在這三個任務上的準確率均未超過50%,這表明即使所有必要的工具使用信息都已在上下文中提供,自然語言規劃對于最先進模型來說仍然是一個極具挑戰性的任務。    

2.3.3.2 約束復雜性

圖4至圖6展示了模型在旅行計劃中城市數量、會議安排中人數、日歷安排中參與者和天數變化下的性能變化。論文觀察到以下關鍵見解:

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

    

圖5:NATURAL PLAN中會議規劃任務的約束復雜性分析,作為人數的函數                  

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

                  圖6:日歷調度任務的約束復雜性分析,作為一天內涉及的人數(左)和兩個與會者之間選擇會議時間的工作日數量(右)的函數

隨著城市/人數/與會者/天數的增加,性能下降。對于旅行規劃,圖4顯示,當規劃中涉及更多城市時,模型開始失敗。在旅行規劃中,所有五個模型在涉及10個城市時,性能都低于5%。對于會議規劃,論文評估了從1到10的人數場景。圖S再次顯示,隨著需要會見的人數增加,性能急劇下降。超過8人后,所有模型的得分都低于10%。對于日歷調度,與其他兩個任務相比,增加與會者或天數時,準確性的下降并不顯著。

2.3.3.3 泛化分析

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

                  圖7:模型在旅行規劃任務上的性能,作為城市數量對少數鏡頭泛化消融的影響函數:E2H=從易到難,H2E=從難到易    

圖7展示了論文對從易到難和從難到易泛化實驗的總結。對于從易到難(從難到易)泛化,論文提供了5個更簡單(更難)的例子,這些例子比任務少2個(多2個)城市,以測試大型語言模型(LLMs)是否能從更簡單(更難)的上下文學習示例中泛化。論文選擇旅行規劃任務來進行消融研究,因為它是自然規劃任務中最困難的任務。

總體而言,論文觀察到從易到難的泛化效果優于從難到易的泛化,跨越了不同的模型家族。第4.2節顯示,當任務復雜度較高時,模型的表現更差。這一結果表明,即使是對于最先進的LLMs,理解和利用上下文學習中的困難示例仍然具有挑戰性。然而,論文確實觀察到,對于GPT-4和Gemini 1.5 Flash,隨著任務復雜度的增加,趨勢發生了逆轉:對于

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區到8,從難到易的示例比從易到難的示例表現更好。

2.3.3.4 自我修正

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

                  圖8:自我修正消融實驗中,行程規劃準確率隨城市數量的變化。SC=自我修正

圖8展示了在行程規劃任務中對模型預測進行自我修正的結果。論文提示大型語言模型(LLM)檢查生成的計劃是否正確,如果判定為不正確,則修正計劃(見附錄B中的提示)。

自我修正導致所有模型性能顯著下降。有趣的是,如GPT-4和Gemini 1.5 Pro這樣的更強模型相比GPT-3.5遭受了更大的損失。如GPT-4和Gemini 1.5 Pro這樣的更強模型相比GPT-3.5遭受了更大的損失。這與先前發現自我修正可能導致推理任務性能下降的研究結果一致[Huang et al., 2023]。像GPT-4和Gemini 1.5 Pro這樣的經過指令調優的強模型可能在被提示時對自己的解決方案過于自信,自我修正的示例見附錄E。    

2.3.3.5 長上下文情景下的即時規劃

NATURAL PLAN:LLMs在自然語言規劃上的基準-AI.x社區

                  圖9 展示了在旅行規劃和日歷調度任務中利用長上下文進行情境規劃的情況。Gemini 1.5 Pro在規劃任務上展現出強大的長上下文學習能力,相較于其他模型表現更優

論文研究了通過利用近期模型的長上下文能力進行情境規劃的可能性。圖9展示了四種模型在最多800個示例下的性能。

由于強大的長上下文能力,Gemini Pro 1.5能夠利用多達35.5萬個上下文示例,并持續顯示出穩定的改進。例如,在旅行規劃中,將示例數量從1增加到800,Gemini Pro 1.5的準確率從2.7%提升至39.9%。與此同時,GPT-4和Gemini 1.5 Flash在20個示例時達到性能峰值,并開始出現性能下降。在日歷調度任務中,Gemini 1.5 Pro持續改進至400個示例。這些結果展示了情境規劃的潛力,其中長上下文能力使得大型語言模型能夠利用更廣泛的上下文來提升規劃能力。

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
欧美日韩成人一区二区三区 | 97人人做人人爱| 视频精品二区| 欧美疯狂性受xxxxx另类| 视频二区欧美| 欧美性视频在线播放| 蜜桃传媒麻豆第一区在线观看| 99高清视频有精品视频| 户外露出一区二区三区| 欧美mv日韩mv国产| 一本大道香蕉8中文在线视频| 人人超在线公开视频| 久久精品一区二区三区不卡| 一级毛片电影| 欧美日韩中文在线| 中文字幕色婷婷在线视频| 精品中文字幕乱| 777午夜精品电影免费看| 欧美黄网免费在线观看| 婷婷综合一区| 久久99热这里只有精品国产| 国产精品草草| 国产精品十八以下禁看| 国产精品福利在线观看播放| 中国一级大黄大黄大色毛片| 美女在线视频一区| 日韩加勒比系列| 亚洲女同一区二区| 日韩成人动漫| 国产精品视频久久久| 麻豆精品在线播放| 国产精品午夜久久久久久| 中文字幕国产精品久久| 99香蕉久久| 久久综合一区二区三区| 欧美自拍偷拍一区| 同心难改在线观看| 一本到一区二区三区| 中文字幕av在线播放| 亚洲自拍偷拍九九九| 免费男女羞羞的视频网站中文版| 国产激情一区二区三区| 凹凸国产熟女精品视频| 午夜精品免费在线观看| 超碰97久久国产精品牛牛| 中文字幕一区二区三区四区五区 | 日本一本中文字幕| 国产视频一区三区| 亚洲福利精品视频| 日韩欧美另类在线| 欧美成人激情| 亚洲 激情 在线| 亚洲成人a级网| 中文字幕亚洲综合久久五月天色无吗''| 国产乱子夫妻xx黑人xyx真爽| 欧美一区二区三区四区高清 | 国产综合视频在线观看| 久久久久国产一区二区三区四区| 蜜臀av国内免费精品久久久夜夜| 国产啪精品视频| 国产精品私人影院| 久久亚洲国产精品尤物| 中文字幕一区二区三区四区五区人| 欧美久久久久久蜜桃| 综合一区av| 资源视频在线播放免费| 欧洲s码亚洲m码精品一区| 国产三级精品视频| 国产精品一区二区三区www| 国产一二三四区在线观看| 日韩欧美亚洲另类制服综合在线| 在线免费高清一区二区三区| 人操人视频在线观看| 国产欧美一区二区三区视频| 亚洲精品ww久久久久久p站| 黄色欧美在线| 自拍偷拍一区二区三区四区| 久久99久久亚洲国产| 久久久久国产成人精品亚洲午夜| 99亚洲男女激情在线观看| 高清欧美精品xxxxx| 这里只有精品在线播放| 国产99精品视频| 精品国产欧美日韩一区二区三区| 日本三日本三级少妇三级66| 日韩国产欧美精品一区二区三区| 精品写真视频在线观看| 自拍网站在线观看| 成年人网站国产| 久久精品电影一区二区| 久久综合丝袜日本网| 911精品国产| 91麻豆福利| 国产精品午夜国产小视频| 午夜av一区二区| 欧美亚洲不卡| 51xtv成人影院| 亚洲国产婷婷香蕉久久久久久99| 亚洲精品乱码久久久久久按摩观| 极品尤物av久久免费看| 精品国模一区二区三区| av日韩一区二区三区| 欧美成人在线免费| 国产精品久久久久久久久搜平片 | 欧美丝袜自拍制服另类| 亚洲日本视频| 川上优av中文字幕一区二区| 亚洲熟妇无码av在线播放| 久久精品久久精品亚洲人| 国产欧美精品在线观看| 人人网欧美视频| 日韩a在线看| 欧美精品一区二区视频 | 狠狠噜天天噜日日噜| 在线播放日韩欧美| 久久久久久一级片| 亚洲精品蜜桃乱晃| 欧美日韩影视| 一区二区日本| 欧美激情aaaa| 欧美日韩国产页| 日韩av网站免费在线| 欧美jizz18| 国产91久久久久蜜臀青青天草二| 精品一区二区国产| 中文字幕日韩精品在线观看| 亚洲欧美成aⅴ人在线观看| 欧美一区二区三区免费看| 国产资源在线观看入口av| 女人和拘做爰正片视频| 国产精品三级网站| 欧美一区午夜精品| 久久丝袜美腿综合| 欧美精品午夜| 国产精品伦一区二区| 污污网址在线观看| 一区高清视频| 国产v综合ⅴ日韩v欧美大片 | 午夜欧美一区二区三区在线播放| 亚洲欧美网站| 日韩在线观看中文字幕| 欧美人体大胆444www| 色撸撸在线观看| 隔壁老王国产在线精品| 在线观看91精品国产入口| 国产精品一二三| 色婷婷色综合| 天天综合网站| 午夜成在线www| 国产女教师bbwbbwbbw| 国产精品看片资源| 亚洲精品福利在线| 亚洲高清中文字幕| 国产宾馆实践打屁股91| 水蜜桃精品av一区二区| 久久爱91午夜羞羞| 日韩毛片在线一区二区毛片| 免费一级特黄毛片| 91成人免费在线观看| 搡老女人一区二区三区视频tv| 天天综合天天做天天综合| 丁香五精品蜜臀久久久久99网站 | 国产三级免费观看| 制服诱惑一区| 亚洲aⅴ男人的天堂在线观看| 日韩在线www| 欧美另类变人与禽xxxxx| 久久免费偷拍视频| 日韩**一区毛片| 精品久久久久久久久久久下田 | 影音先锋在线视频| 国产黄色免费电影| www.成年人视频| 精品国产乱码一区二区三区四区| 久久露脸国产精品| 亚洲欧美激情另类校园| 欧美在线不卡视频| 综合精品久久久| 国产麻豆午夜三级精品| 亚洲精品乱码久久久久久蜜桃麻豆| 美女视频亚洲色图| 欧美极品影院| a级网站在线播放| 蜜桃成人在线视频| 污视频网站免费| 青青青青草视频| 亚洲精品中字| 国产伦一区二区三区色一情| 欧美一级淫片videoshd| 亚洲一级免费视频| 日韩精品在线一区二区| 在线精品视频一区二区三四 | 不卡的av中国片| 久久成人久久爱| 国产日韩欧美一区| 91精品国产自产在线观看永久∴| 神马久久av| 精品av导航| 粉嫩一区二区三区四区公司1| av在线日韩|