国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

李飛飛吳佳俊團隊新作:推出具身智能決策能力評價基準,o1-preview登頂 | NeurIPS

人工智能 新聞
李飛飛吳佳俊團隊新提出的評估框架,對具身智能決策的四項關鍵子能力來了個全面檢查。

大模型的具身智能決策能力,終于有系統的通用評估基準了。

李飛飛吳佳俊團隊新提出的評估框架,對具身智能決策的四項關鍵子能力來了個全面檢查。

這套基準已經被選為了NeurIPS數據和測試集(D&B)專欄Oral論文,同時也被收錄進了PyPI,只要一行代碼就能快速調用。

圖片

該框架名為Embodied Agent Interface(簡稱EAI),提供了連接不同模塊和基準環境的標準接口。

利用這套框架,作者對18款主流模型進行了測試,形成了一篇超百頁的論文。

測試結果顯示,在已公開的大模型當中,o1-preview的綜合成績位列第一

李飛飛本人表示,對這項合作研究感到非常興奮。

圖片

有網友評價說,這項成果為大模型具身智能決策塑造了未來。

圖片

四項子能力全面評估

首先,EAI提供了一種統一的目標表示方法,能夠兼容不同類型的目標,并支持復雜約束的描述。

團隊認為,現有的具身決策任務通常針對特定領域設計目標,缺乏一致性和通用性。

例如,BEHAVIOR和VirtualHome都是具身智能體的評測基準和模擬環境,用于研究智能體在復雜環境中完成任務的能力。

但二者又有所區別,BEHAVIOR使用基于狀態的目標,而VirtualHome使用時間擴展的目標。

EAI則通過引入線性時態邏輯(LTL),實現了目標表示方式的統一,提高了模塊之間的互操作性,便于比較不同模型在同一任務上的表現。

圖片

在具體的評估過程當中,EAI采用了模塊化的評估方式,并將評估指標進行了更細粒度的劃分。

以往的研究通常將大模型作為整體進行評估,很少關注其在具身決策各個子任務上的表現;

同時,這些現有基準通常只關注任務的最終成功率,很少深入分析模型的錯誤類型和原因。

為了更深入理解大模型的行為模式和優劣勢分布,EAI提出了四個關鍵能力模塊,并設計了一系列細粒度的評估指標:

  • 將模型能力分為四個關鍵模塊;
  • 定義了清晰的輸入輸出接口;
  • 從軌跡可執行性、目標滿足度、邏輯匹配性等多個角度評估模型的性能;
  • 引入了豐富的注釋(如目標狀態、關系、動作),以實現自動化的錯誤分析。

圖片

具體來說,四個關鍵模塊及內容分別是:

  • 目標解釋(Goal Interpretation):將自然語言表述的任務目標轉化為形式化的LTL目標公式;
  • 子目標分解(Subgoal Decomposition):將任務目標分解為一系列子目標,每個子目標也用LTL公式表示;
  • 動作序列規劃(Action Sequencing):根據任務目標生成動作序列,在環境中執行以達成目標狀態;
  • 轉換建模(Transition Modeling):為每個動作或操作符生成前提條件和效果,形成環境轉換模型。

圖片

另外,EAI選取了兩個具有代表性但特點迥異的環境,也就是前面提到的BEHAVIOR和VirtualHome。

相比于單一環境評估,EAI更能考察大模型跨領域的泛化能力,有助于全面理解其適用范圍和局限性

o1-preview綜合成績第一

利用EAI這套標準,研究團隊對GPT、Claude、Gemini等18款主流模型(型號)的決策能力進行了評估。

在BEHAVIOR和VirtualHome環境下,o1-preview均獲得了排行榜綜合成績第一名。

其中在BEHAVIOR環境中,o1-preview得分為74.9,比第二名的Claude 3.5 Sonnet高了10多分,排在之后的是60分左右的Claude 3 Opus和GPT-4o。

圖片

到了VirtualHome環境下,依然是o1-preview領先,但前三名的成績相對接近。

同時Gemini 1.5 Pro變成了第二名,不過整體來看排行靠前的幾個模型和BEHAVIOR環境類似。

圖片

當然如果比較單項能力,不同模型也體現出了各自不同的優勢項目。

比如在BEHAVIOR環境中,總分排第二的Claude 3.5 Sonnet,目標解釋能力略高于總分排第一的o1-preview。

在VirtualHome環境中,總分相對靠后的Mistral Large,在動作序列規劃上取得了第一名。

圖片

作者還對各模型的失敗情況進行了深入分析,發現了將中間狀態誤識別為最終目標狀態、對隱含的物理關系理解不足、忽略重要的前提條件等具體問題。

這些發現能夠讓研究人員對模型的優缺陷進行更深層的了解,為之后的研究提供了重要參考。

項目主頁:https://embodied-agent-interface.github.io/
論文:https://arxiv.org/abs/2410.07166
代碼:https://github.com/embodied-agent-interface/embodied-agent-interface
數據集:https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-11 08:30:00

2025-03-20 14:24:21

2024-05-21 12:23:00

模型訓練

2025-04-10 09:10:00

模型AI評測

2023-11-10 12:58:00

模型數據

2025-01-13 10:30:59

2025-12-15 02:12:00

2025-12-15 08:42:00

2024-09-23 16:00:00

AI模型測評

2024-11-20 14:00:00

模型測評

2025-02-06 14:28:16

2022-06-29 14:49:43

計算機視覺智能

2024-12-20 14:30:00

2023-12-12 13:43:00

AI模型

2025-01-02 09:53:17

2024-09-03 14:30:00

機器人模型

2023-12-14 12:57:00

模型數據

2025-09-24 11:24:42

2016-11-12 19:20:39

2025-06-10 17:07:44

點贊
收藏

51CTO技術棧公眾號

99视频一区| 波多一区二区| 精品一区二区三区自拍图片区 | 国产精品初高中害羞小美女文| 国产剧情一区二区| 丁香5月婷婷久久| 日韩毛片在线看| 亚洲成人在线| 色综合一区二区| **欧美日韩在线| 国产欧美综合一区| 欧美巨大另类极品videosbest | 免费成人深夜夜行网站视频| 91av在线看| 日本高清视频一区二区| 91色.com| 男人的j进女人的j一区| 香蕉成人app| 国产桃色电影在线播放| 91精品国产高久久久久久五月天| 日韩视频在线免费播放| 亚洲在线免费看| 欧美高跟鞋交xxxxxhd| 亚洲国产日韩欧美在线99| 午夜影院久久久| 国产精品美女一区二区三区| 国产风韵犹存在线视精品| 欧美在线视屏| 成人黄色毛片| 蜜臀久久精品| 国产男女爽爽爽| 69堂成人精品视频免费| 国产偷久久久精品专区| 亚洲va韩国va欧美va精四季| 麻豆传媒一区二区| 欧美激情免费视频| 亚洲欧洲日韩av| 久久精品免视看| 久久久噜噜噜久久中文字幕色伊伊 | 国产精品第十页| 成人国产精品一级毛片视频| 欧美电影一二区| 成人看的视频| 成人综合一区| 一区二区三区午夜视频| 天天天综合网| 亚洲免费播放| 国产精品99久久久久久动医院| 六月丁香久久丫| 日本大胆欧美人术艺术动态 | 男男视频亚洲欧美| 中文字幕日本乱码精品影院| av成人免费在线观看| 婷婷丁香激情综合| 91精品在线免费观看| 国产成人精品亚洲午夜麻豆| 亚洲r级在线视频| 一本大道久久精品懂色aⅴ| 国产欧美一区二区精品忘忧草| 国产精品色在线| 久久国产精品露脸对白| 亚洲一区欧美激情| 国产成人亚洲综合a∨婷婷图片 | 亚洲视频免费在线| 日韩精品免费电影| 亚洲自拍在线观看| 精品av中文字幕在线毛片 | xvideos成人免费中文版| 夜夜精品视频一区二区| 国产成人精品免费看| 国产综合色产在线精品| 捆绑调教美女网站视频一区| 久久蜜桃av一区精品变态类天堂 | 免费看的黄色欧美网站| 精品中文字幕一区二区| 91麻豆国产自产在线观看| 亚洲高清三级视频| 色777狠狠综合秋免鲁丝| 亚洲国产精品综合| 成人video亚洲精品| 成人黄页网站视频| 日韩在线理论| 蜜臀av性久久久久蜜臀aⅴ| 成人18视频日本| 在线一区二区观看| 永久免费毛片在线播放不卡| 国产精品678| 美女av免费观看| 成人福利在线| 伦理一区二区| 极品中文字幕一区| 成人中文字幕在线| 欧美日韩国产大片| 日本国产一区二区三区| 神马影院午夜我不卡| caoporn超碰97| 男人av在线| 三级一区在线视频先锋| 欧美国产视频在线| 日韩一级欧美一级| 久久精品免费播放| 在线观看亚洲视频| 欧美www在线| 久久精品人人爽| 色综合影院在线| 国产青草视频在线观看| 国产精品毛片一区二区三区| 韩国三级电影久久久久久| 国产又大又黄又猛| aaa一级毛片| 国产黄色片在线播放| av中文字幕电影在线看| 亚洲人人精品| 欧美日韩午夜在线视频| 成人免费在线播放视频| 久久精品影视伊人网| 中国老女人av| 蜜桃一区av| 午夜精品免费在线| 色999五月色| 欧美电影在线观看一区| 欧美日韩午夜剧场| 亚洲高清在线播放| 国产亚洲观看| 欧洲一区二区三区在线| 水蜜桃亚洲精品| 色婷婷一区二区三区| 日韩电影中文字幕| 日韩视频在线视频| 久久久久97| 久久综合久久综合久久| 精品国产依人香蕉在线精品| 四虎永久在线精品无码视频| 可以在线观看的av网站| av资源在线| 曰本一区二区| 日韩高清不卡一区| 亚洲国产精品麻豆| 色婷婷久久久久swag精品| 一本大道亚洲视频| 男人用嘴添女人下身免费视频| 四虎影视成人精品国库在线观看| 中文字幕不卡在线| 久久噜噜噜精品国产亚洲综合| 久久精品无码一区二区日韩av| 亚洲第一黄网| 欧美性xxxxxx少妇| 成人在线视频电影| 影音先锋电影在线观看| 九九热线有精品视频99| 777欧美精品| 婷婷六月激情| 精品黄色一级片| 偷拍与自拍一区| 国产精品视频免费观看www| 日韩啊v在线| 中文字幕中文字幕在线中高清免费版| 午夜日韩激情| 亚洲精选视频在线| 91精品国产91久久久久青草| aaa在线播放视频| 亚洲3atv精品一区二区三区| 亚洲精品日韩专区silk| 国产欧美日韩91| 秋霞国产精品| 日本韩国欧美三级| 熟女人妇 成熟妇女系列视频| 国产精品美女久久久浪潮软件| 国产成人啪精品视频免费网| 四虎影视精品永久在线观看| 精品日韩成人av| 免费动漫网站在线观看| 天天综合日日夜夜精品| 国产www在线观看| 久久精品国产精品亚洲精品| 国内精品美女av在线播放| 中文字幕中文字幕在线中文字幕三区 | 欧美国产三区| 日韩欧美国产一区二区在线播放| 亚洲一二三区av| 蜜臀久久99精品久久久久宅男| 国产一区二区三区久久精品 | 成年人视频免费在线观看| 久久精品凹凸全集| 亚洲r级在线视频| 成人免费淫片视频软件| 久久五月精品中文字幕| 欧美国产日韩亚洲一区| 91精品久久久久久久久中文字幕| 日本精品视频| 国产一区二区欧美日韩| 精品中文视频| 国产精品久久91| 色乱码一区二区三区网站| 亚洲bt天天射| 免费观看成人www动漫视频| 色综合久久久久网| 精品国产第一页| 精品国产一区二区三区噜噜噜| 久久九九国产精品怡红院|