国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ICML Spotlight | MCU:全球首個生成式開放世界基準,革新通用AI評測范式

人工智能 新聞
我們構建了?Minecraft Universe(MCU)?——一個面向通用智能體評測的生成式開放世界平臺。

該工作由通用人工智能研究院 × 北京大學聯手打造。第一作者鄭欣悅為通用人工智能研究院研究員,共同一作為北京大學人工智能研究院博士生林昊葦,通訊作者為北京大學助理教授梁一韜和通用人工智能研究院研究員鄭子隆。

開發能在開放世界中完成多樣任務的通用智能體,是AI領域的核心挑戰。開放世界強調環境的動態性及任務的非預設性,智能體必須具備真正的泛化能力才能穩健應對。然而,現有評測體系多受限于任務多樣化不足、任務數量有限以及環境單一等因素,難以準確衡量智能體是否真正「理解」任務,或僅是「記住」了特定解法。

為此,我們構建了 Minecraft Universe(MCU) ——一個面向通用智能體評測的生成式開放世界平臺。MCU 支持自動生成無限多樣的任務配置,覆蓋豐富生態系統、復雜任務目標、天氣變化等多種環境變量,旨在全面評估智能體的真實能力與泛化水平。該平臺基于高效且功能全面的開發工具 MineStudio 構建,支持靈活定制環境設定,大規模數據集處理,并內置 VPTs、STEVE-1 等主流 Minecraft 智能體模型,顯著簡化評測流程,助力智能體的快速迭代與發展。

圖片

開放世界AI,亟需理想的評測基準!

傳統測試基準包含有標準答案的任務(如代碼、推理、問答),但開放世界任務 Minecraft 有著完全不同的挑戰:

  • 目標開放多樣:任務沒有唯一解,策略可以千變萬化;
  • 環境狀態龐雜:狀態空間近乎無限,還原真實世界復雜度;
  • 長周期任務挑戰:關鍵任務持續數小時,智能體需長期規劃。

在這樣的環境中,我們需要的不只是一個評分系統,而是一個維度豐富、結構多元的綜合評測框架。

MCU:為開放世界 AI 打造的「全方位試煉場」

當前已有不少 Minecraft 的測試基準,但它們普遍面臨「三大瓶頸」:

  • 任務單一:局限于如挖鉆石、制造材料等少數幾個場景的循環往復。
  • 脫離現實:部分建模任務甚至超出了普通人類玩家的能力范疇。
  • 依賴人工評測:效率低下,導致評測難以規模化推廣。

圖片

與之前 minecraft 測試基準對比示意圖。

針對以上痛點,MCU 實現了以下三大核心突破:

一:3,452 個原子任務 × 無限組合生成,構筑海量任務空間

MCU 構建了一個覆蓋真實玩家行為的超大任務庫:

  • 11 大類 × 41 子類任務類型:如挖礦、合成、戰斗、建造等;
  • 每個任務都是「原子級粒度」:可獨立測試控制、規劃、推理、創造等能力;
  • 支持 LLM 動態擴展任務,比如:用鉆石劍擊敗僵尸、雨天徒手采集木材、

在沙漠中建一座水上屋。

任意組合這些原子任務,即可生成無限的新任務,每一個都對 AI 是全新挑戰!

圖片

模擬多樣化真實世界挑戰。

二. 任務全自動生成 × 多模態智能評測,革新評估效率

GPT-4o 賦能,一句話生成復雜世界:

  • 自動生成完整的任務場景(包括天氣、生物群系、初始道具等)。
  • 智能驗證任務配置的可行性,有效避免如「用木鎬挖掘鉆石」這類邏輯錯誤型任務。

VLM(視覺語言模型)驅動,徹底改變了傳統人工打分的低效模式:

  • 基于 VLM 實現對任務進度、控制策略、材料利用率、執行效率、錯誤檢測及創造性六大維度的智能評分。
  • 模型自動生成詳盡的評估文本,評分準確率高達 91.5%
  • 評測效率相較人工提升 8.1 倍,成本僅為人工評估的 1/5!

圖片

任務生成 x 多模態評測流程圖。

三:高難度 × 高自由度的「試金石」任務設計,深度檢驗泛化能力

MCU 支持每個任務的多種難度版本,如:

  • 「白天在草原擊殺羊」VS「夜晚在雨林躲避怪物并擊殺羊」;
  • 「森林里造瀑布」VS「熔巖坑邊緣建造瀑布」。

這不僅考驗 AI 是否能完成任務,更深度檢驗其在復雜多變環境下的泛化與適應能力。

打破「模型表現良好」的幻象:現有 SOTA 模型能否駕馭 MCU ?

我們將當前領域頂尖的 Minecraft 智能體引入 MCU 進行實戰檢驗:GROOT:視頻模仿學習代表;STEVE-I:指令執行型控制器;VPT(BC/RL):基于 YouTube 行為克隆訓練而成的先驅。結果發現,這些智能體在簡單任務上表現尚可,但在面對組合任務和陌生配置場景時,完成率急劇下降,且錯誤識別與創新嘗試是其短板。

圖片

圖片

圖片

圖片

SOTA 模型在 MCU 上的測試結果。

研究團隊引入了更細粒度的任務進度評分指標(Task Progress),區別于傳統 0/1 式的「任務完成率」,它能動態刻畫智能體在執行過程中的階段性表現,哪怕任務失敗,也能反映其是否在朝正確方向推進。

實驗發現,當前主流模型如 GROOT、STEVE-I、VPT-RL,在原子任務中尚有可圈可點的表現,但一旦面對更具組合性和變化性的任務,其成功率便會驟降。甚至對環境的微小改動也會導致決策混亂。比如「在房間內睡覺」這個看似簡單的任務,僅僅是將床從草地搬到屋內,就讓 GROOT 頻繁誤把箱子當床點擊,甚至轉身離開現場——這揭示了現有模型在空間理解與泛化上的明顯短板。

更令人警醒的是,智能體在建造、戰斗類任務中的「創造性得分」與「錯誤識別能力」幾乎全面落后。這說明它們尚未真正具備人類那種「發現問題、調整策略」的自主意識,而這正是通用智能邁向下一個階段的關鍵。

MCU 的評測結果首次系統性地揭示了當前開放世界智能體在「泛化、適應與創造」這三大核心能力上存在的鴻溝,同時也為未來的研究指明了方向:如何讓 AI 不僅能高效完成任務,更能深刻理解任務的本質,并創造性地解決復雜問題。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-11 11:53:35

模型評測

2025-07-02 09:21:30

2025-06-30 08:36:00

AI模型強化學習

2025-05-21 08:47:00

2019-03-07 14:11:39

AIIAAI芯片

2024-10-14 14:10:00

大模型AI開源

2025-05-16 09:32:48

2025-06-12 09:03:00

2024-01-09 14:00:26

2025-07-29 09:05:00

2025-09-25 14:15:51

2025-02-12 10:12:00

視頻模型AI

2025-06-03 09:08:00

2025-06-20 14:29:02

模型訓練大數據

2024-07-19 10:39:38

2025-08-05 15:10:25

機器人視覺訓練

2025-09-03 09:07:00

2014-04-24 16:48:18

大數據引擎百度大腦百度
點贊
收藏

51CTO技術棧公眾號

欧美影视一区二区| 9久久9毛片又大又硬又粗| 视频亚洲一区二区| 日韩丝袜美女视频| 九色在线观看视频| 色婷婷综合中文久久一本| 中文在线天堂网| 亚洲自拍偷拍图区| 欧美12一14sex性hd| 亚洲国产日韩精品| 91九色精品| 免费在线激情视频| 国产一区二区三区香蕉| 日韩一级特黄| 亚洲午夜色婷婷在线| 欧美卡一卡二| 亚洲爱爱爱爱爱| 男女羞羞视频在线观看| 亚洲国产精品高清久久久| 麻豆国产在线| 日韩有码在线观看| 99热这里只有精品首页 | 制服丝袜一区二区三区| 成人高清免费观看mv| 欧美久久久久久蜜桃| 男人在线资源站| 精品一区二区三区四区| 成人污污www网站免费丝瓜| 欧美国产第一页| 国产99久久精品一区二区300| 91精品美女在线| 国产日韩一区| 欧美狂野激情性xxxx在线观| 中文字幕中文字幕中文字幕亚洲无线| 国产国产国产国产国产国产| 欧洲精品在线观看| 91九色porn在线资源| 美女扒开尿口让男人操亚洲视频网站| 国产剧情在线观看一区| 国产精品区一区| 国产原创一区二区三区| 日韩手机在线观看视频| 欧美日韩激情网| 川上优av中文字幕一区二区| 欧美裸身视频免费观看| 精品国产乱码久久久久久蜜臀 | 深夜成人福利| 中文字幕一区二区三区精华液| 欧美猛烈性xbxbxbxb| 亚洲第一国产精品| 日韩午夜视频在线| 激情欧美日韩一区二区| 亚洲精品小视频| 日本精品视频| 成人h猎奇视频网站| 久久久人人人| 女人和拘做爰正片视频| 亚洲高清不卡在线| 久热在线观看视频| 久久精品美女视频网站| 欧美日韩成人在线播放| 9999在线精品视频| 97视频资源在线观看| 国产成人综合亚洲91猫咪| 久久久久久国产免费| 欧美性xxxxx极品娇小| 老司机在线精品视频| 欧美一级高清大全免费观看| 电影一区中文字幕| 国产精品果冻传媒潘| 99久久99久久精品免费观看| 性色av一区| 久久综合久久88| 亚洲成人黄色在线观看| 欧美videos粗暴| 日本高清成人免费播放| 春暖花开亚洲| 7777精品伊久久久大香线蕉语言| 亚洲一区国产视频| 吞精囗交69激情欧美| 国产精品一区二区久久久| av在线播放一区| 超碰97网站| 国产精品私人影院| 中文字幕免费高清电视剧网站在线观看| 欧美精品videosex牲欧美| 蜜桃av一区二区三区电影| 最新中文字幕在线视频| 欧美黑人国产人伦爽爽爽| 国产精品一级片| yw193.com尤物在线| 欧美中文字幕第一页| 国产成人午夜高潮毛片| 毛片在线播放a| 国产精品小说在线| 日本一区二区动态图| 欧美va在线观看| 亚洲三级一区| 3751色影院一区二区三区| 婷婷激情图片久久| 黄色毛片视频| 91精品国产精品| 国产欧美一区二区精品久导航| 成人免费毛片嘿嘿连载视频…| 亚洲巨乳在线观看| 欧美一区二区三区系列电影| 91tv官网精品成人亚洲| 成视频在线免费观看| 欧美在线激情网| 国产精品国产三级国产专播品爱网 | 欧美一区二区视频在线观看2020| 人人狠狠综合久久亚洲婷婷| 99青春婷婷视频| 久久亚洲精品成人| 99这里只有久久精品视频| 韩国女主播一区二区| 久草视频这里只有精品| 亚洲小视频在线观看| 国产久卡久卡久卡久卡视频精品| 黑森林国产精品av| 资源网第一页久久久| 日韩成人av一区| 国产精品一区二区视频| 欧美91看片特黄aaaa| www.国产二区| 亚洲成人av片| 国产综合在线视频| 亚洲成人av| 毛片在线播放网址| 国产精品国产一区二区 | 亚欧美无遮挡hd高清在线视频| 日本一区二区三区电影| 国产精品视频自在线| 五月天一区二区三区| 中文av一区| a天堂中文在线官网在线| 日韩欧美精品一区二区| 亚洲精品福利视频| 国产精品一区二区三区网站| 欧美成人黄色| 欧美老熟妇喷水| 97在线精品视频| 精品成人av一区| 另类天堂av| 九色成人搞黄网站| 成人18网址在线观看| 亚洲综合成人婷婷小说| 日韩精品资源二区在线| 国产精品中文字幕一区二区三区| 成人亚洲综合| 依人在线免费视频| 国产日韩欧美夫妻视频在线观看| 色噜噜狠狠色综合欧洲selulu| 美女精品一区| 成人午夜在线| 原千岁中文字幕| 欧美日韩电影一区二区| 色综合亚洲精品激情狠狠| 亚洲欧洲成人自拍| 欧美午夜免费影院| 美女av在线免费看| 不卡影院一区二区| 成人性生交大片免费看小说| 精品视频1区2区3区| 国产精品一区在线| 婷婷亚洲精品| 国产黄色在线免费观看| jizzjizz国产精品喷水| 国产日产亚洲精品| 亚洲精品一区中文| 怡红院av一区二区三区| 日韩精品久久久久久| 五月亚洲婷婷| 69久久夜色| 超碰av在线免费观看| 国产亚洲一区二区三区在线播放| 在线视频精品一| 色综合中文字幕| av一区二区三区四区| 国产精品大片免费观看| 四虎精品在线观看| 97最新国自产拍视频在线完整在线看| 男人日女人视频网站| 91福利入口| 日韩小视频在线观看| 欧美日韩中文字幕在线视频| 国产精品996| 伊人色**天天综合婷婷| 欧美大片1688| 久蕉在线视频| 国产一级特黄a大片免费| 日本不卡二区| 国产精品人成电影| 日韩中文字幕免费| 日韩一区和二区| 亚洲夂夂婷婷色拍ww47| 国产激情一区二区三区四区| 一区二区不卡| 2023国产精华国产精品| 色呦呦在线观看视频|