国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

這場比賽,讓上百個AI智能體「卷起來了」

人工智能 新聞
不遠的將來,智能決策技術將成為數字化轉型的加速器,推進能源、物流、工業等產業領域的研究落地和成果轉化。

過去數年,隨著神經網絡、基于強化學習的自我博弈、多智能體學習和模仿學習等通用機器學習理論的突破,AI 智能體的決策能力實現了飛躍式發展。

可以看到,不管是谷歌、微軟、IBM 等全球科技巨頭,還是國內一眾 AI 龍頭企業,在學術研究和產業落地上,它們的關注焦點都在從智能感知向智能決策過渡。「決策 AI」成了領域內的必爭之地。

今年 5 月,谷歌旗下的機構 DeepMind 發布 Gato,這款全新的 AI 智能體能夠在「廣泛的環境中」完成 604 項不同的任務。Gato 的誕生,再次刷新了單智能體的能力上限。當然,關于 AI 決策能力的探索不會僅限于此,如果讓海量智能體在一個接近真實世界的開放決策環境中「狹路相逢」,它們會做出何種判斷和選擇,又會怎樣分工合作、競爭呢? 近日,由超參數科技發起,麻省理工學院、清華大學深圳國際研究生院,以及知名數據科學挑戰平臺 AIcrowd 聯合主辦的「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」落幕。在這場比賽中,我們發現了一些進行新探索的可能性。

圖片


復雜環境中的多智能體博弈

近年來,多智能體環境已經成為深度強化學習的一個有效研究平臺。目前,強化學習環境要么足夠復雜,但限制條件太多,普適性不強;要么限制條件很少,但過于簡單。這些問題限制了更高復雜度任務的創建,也很難激發出多智能體更高階的決策能力。

2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 實習期間開發了 Neural MMO,他借鑒大型多人在線游戲(MMO),模擬出一個龐大的生態系統,系統中包含數量不等的智能體,并讓它們在持久、廣闊的環境中競爭。行業人士普遍認為,「這個模擬相當有趣」。與過往著眼于技術水準的 AI 游戲對戰環境不同,Neural MMO 涉及到了 AI 的長期判斷和選擇,更考驗智能體的決策能力。 「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」使用的正是上述環境。主辦方表示,選擇 Neural MMO 主要基于兩點:一是 Neural MMO 類似于開放世界生存游戲,本身有一個自運轉系統,并且定義了采集、攻擊、生存等基本機制,二是它支持海量 AI 共存、交互,并涌現策略。無論在學術界還是工業界,這種環境都不多見。

圖片

Neural MMO環境在這場比賽中,每局對戰都包含 16 支隊伍,每支隊伍包含 8 個智能體,這些智能體小分隊要在 128x128 的地圖上進行自由對抗。根據主辦方的設計,每個智能體小分隊要達成覓食、探索、競爭、打怪四項成就。這意味著每個環境里有 128 個智能體同時決策,每支隊伍里的 8 個智能體要為了不同的目標進行有效的合作分工。

圖片


在這種情況下,每個智能體都要發揮自己的強項,必要時,為了團隊能夠獲得「最后的勝利」,一部分智能體還要學會「主動送人頭」。鑒于環境里有多個智能體在同時學習,智能體們不僅需要考慮自己期望得到何種獎勵,還要考慮對手可能會采取什么策略。再加上每一局對戰都要完成四項任務,層層設置之下,每個智能體面臨的「抉擇」都有更高的決策復雜度。

讓海量智能體「卷」起來

對一場學術性質的比賽來說,除了找到好問題,還要有足夠多的好選手。為此,主辦方從賽事規則、工具、賽事支持等方面對 Neural MMO 挑戰賽進行了全面優化。 在工具層面,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」升級了提交系統,讓第一次成功提交到返回結果的時間從原來的兩個多小時減少到十分鐘;此外,挑戰賽還提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,參賽者只需要跑一遍代碼,就可以完成第一個提交;在 Baseline 中,用戶只需要訓練兩天,就可以完成 Stage 1 0.5 的勝率,運行訓練四天,就可以獲得 Stage 1 0.8 的勝率。

這些設計幫助參賽者在初始階段迅速地熟悉規則,并以此節省大量時間。利用省下來的時間,參賽者們可以將思考重點放在定義智能體在 Neural MMO 環境中的決策方式上,比如進行獎勵信號的設計等。

在賽制上,這場 Neural MMO 挑戰賽采取了 PvE 與 PvP 結合的方式。在 PvE 階段,每個 Stage 的內置 AI 難度會逐漸增加,參賽者由此感受到「梯度」。Stage 1 的難度是最低的,包含了一些基于簡單規則編寫的開源腳本。之后,Stage 2 的難度會變得更高,主辦方基于經典的 PPO 算法對內置 AI 進行訓練,并加入自我博弈(Self-Play)的訓練機制。到了 Stage 3,智能體的綜合能力進一步升級,選手們面對的已經是高度團結的競爭對手隊伍。

在 PvE 階段獲,成就分達到 25 的隊伍即可晉級;但在 PvP 階段,難度上升,對戰對象從內置 AI 變為其它參賽選手隊伍。

讓 8 個智能體組團完成任務,是合作博弈中的一個經典問題。如果說在 PvE 階段的前兩個 Stage,依靠單打獨斗還能取得一些成績,那么隨著環境內置 AI 不斷變強,再到對手從環境內置 AI 變為真實世界中的參賽團隊,出戰的智能體小分隊也需要隨之完成脫胎換骨般的進化,以此去理解怎樣達成「團隊最優決策」。

基于上述改進,不同水平的參賽者都能在這場賽事中找到適合自己的參賽目標。但同時,要想獲得頂尖名次,智能體的綜合決策能力要能經受住考驗,這就要求選手在智能體的算法設計上具備更深刻的思考。

RL 算法選手,后來者居上

經過三個月的激烈角逐,兩支來自業界的隊伍脫穎而出,斬獲了本屆挑戰賽的冠亞軍。有趣的是,這兩支隊伍均采用強化學習算法,且都是在最后一個月才參賽。

冠軍團隊 LastOrder 提到,相較現有的其他多智能體環境,MMO 有更豐富的內容,例如生存、戰斗、升級、團隊 PK、隨機地圖等。與其他同類比賽不同的是,Neural MMO 挑戰賽給參賽者的規則限制很少,這也為強化學習算法的應用提供了廣闊的發揮空間。

NeuralNoob 是亞軍獲得者,他認為 Neural MMO 最明顯的特點在于支持的海量智能體,本場比賽的設置為 128 個,但實際上可以增加到上千或者更多。「它是一個多任務的環境,每個智能體需要在必要的時候改變策略各司其職,具有更大的研究價值。」

在比賽過程中,LastOrder 設計了分布式強化學習訓練框架 Newton,該框架具備高度靈活性及可擴展性。

圖片


他們采用獎勵設計等方法間接鼓勵智能體做出合理的行為。在設計合理的獎勵、神經網絡結構等之后,他們觀察到,深度強化學習訓練后的智能體自行涌現了相互配合的行為。

「啟發式算法的優點是思路更加簡明,反饋更加直接。相比之下,強化學習需要更長的訓練時間,以進行網絡結構和參數的調整。」LastOrder 表示,「但強化學習算法所能達到的能力上限更高,更具探索的價值。」

NeuralNoob 同樣采用強化學習算法,整體方案是 ppo 算法加自我博弈 ( self-play) 訓練機制,所有智能體的訓練都將 8 個智能體作為一個團隊來訓練,value 部分則會用到整個團隊的共享表征,并按照 CTDE 的方式訓練。

在 LastOrder 看來,MMO 這個平臺還存在更多想象空間:例如它可以引入更多游戲要素,甚至可以變成一個開放的線上游戲,促進 Human in the loop 等領域的相關研究。對此,NeuralNoob 持相似看法,他認為可以有更多樣的裝備供智能體選擇,并設置一個安全區,智能體到達安全區后不能發動攻擊,同時可以和敵方智能體進行裝備交易。

在 NeuralNoob 的設想里,甚至可以讓智能體臨時和敵方智能體進行合作,聯手擊殺一些強大的內置 AI,而同敵方智能體的合作將會讓 MMO 更符合真實世界中合作與競爭共存的關系。

NeuralNoob 認為,這些是強化學習目前比較難勝任的地方,強大如 openai five,也是通過手寫規則來實現出裝路線,因為設計到裝備選擇的訓練樣本占比勢必會很小,但依賴鏈卻很長。

智能決策的「今天」和「未來」

更長遠地看,Neural MMO 環境提供了一個廣闊、高自由度的學術框架,可以推動一些種群層面的行為研究,比如如何高效組隊,它甚至能衍生出社會學、經濟學方面的概念研究,這些都是現階段相關領域內瓶頸仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」 在學術研究層面的意義也更加凸顯。

任何關于決策智能的學術研究,人們都希望它能在真實的產業場景中發揮價值,包括但不限于商業游戲、量化交易。在現實生活中,決策的代價可能會非常大,這是因為,一方面,決策會直接導致結果,所以決策水平的質量高低,跟結果帶來的收益直接相關;另一方面,決策所設定的環境相當復雜,而想要在真實世界中做預演,成本也會非常高。

在學界、業界對智能決策的探索過程中,Neural MMO 無疑有希望成為一個很好的試驗載體。但現實中的智能決策往往更加復雜,有著更長的決策鏈條。如何進一步仿真模擬,讓 Neural MMO 更大程度上地接近現實決策環境,這需要整個行業進行長期探索。

據了解,超參數科技將依托 2022 NeurlPS 會議舉辦新一輪 NMMO 挑戰賽。相較于「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」,新賽事增加了交易系統,豐富了裝備品類、多職業分工以及毒圈機制,這使得它本就開放的環境變得更加貼合現實決策環境。同時,持續豐富的智能體之間合作及競爭的交互方式也大大增加了決策多樣性、策略深度以及合作競爭的可能性。

在Neural NMMO系列挑戰賽中,智能體與環境中的內置AI、敵方智能體,以及隊友之間產生了大量交互,形成實時反饋,在動態的決策環境中達成最優決策,研究結果推動智能決策技術的發展。不遠的將來,智能決策技術將成為數字化轉型的加速器,推進能源、物流、工業等產業領域的研究落地和成果轉化,為更多「不確定」的真實決策場景提供相對「確定」的答案。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-18 15:20:00

2021-12-16 09:52:18

云計算行業科技

2013-07-23 16:43:28

Android開源項目

2022-04-18 16:25:17

辦公軟件釘釘飛書

2019-05-22 13:51:04

騰訊AI互聯網

2025-03-24 08:43:00

GrokAI模型

2020-12-07 10:21:39

漏洞Google Play攻擊

2025-04-02 09:21:00

DeepSeekAI開源

2024-07-19 12:45:23

2020-06-23 14:33:52

惡意軟件谷歌監控活動

2024-01-12 10:09:12

谷歌云計算

2024-03-27 18:14:32

2014-02-19 10:52:43

ETL項目SSIS框架

2025-12-10 17:02:54

AI原生智能體CNCF

2022-02-28 09:50:27

AI數字化開發

2024-04-30 15:06:03

智能體模型工具
點贊
收藏

51CTO技術棧公眾號

99亚洲一区二区| 精品视频第一区| 一区二区三区四区精品| 91人人澡人人爽人人精品| 欧美午夜无遮挡| 成人午夜在线观看| 亚洲最大福利网站| 特色特色大片在线| 黄网站色视频免费观看| 97在线免费| 色男人天堂综合再现| 亚洲乱码精品一二三四区日韩在线| 中文字幕精品—区二区日日骚| 国产成人av电影| 欧美丰满一区二区免费视频 | 日本精品在线| 国产一级特黄a大片99| 亚洲电影一区二区三区| 豆花视频一区二区| 久久久av网站| 豆花视频一区| 久久91亚洲人成电影网站| 色狠狠一区二区三区| 美女网站在线免费欧美精品| 国产精品九色蝌蚪自拍| 亚洲国产古装精品网站| 亚洲欧美中文日韩在线v日本| 国内精品久久影院| 日本一级理论片在线大全| 亚洲男人天堂网站| eeuss影院www在线播放| 天天射综合影视| 亚洲男人在线| 国产精品一 二 三| 美女尤物久久精品| 久久久久久久久久婷婷| 欧美高清视频一区二区三区在线观看| 日本激情视频在线| av高清不卡| 亚洲韩国一区二区三区| 超级碰碰视频| 日韩国产欧美一区二区三区| 81精品国产乱码久久久久久| 91在线精品一区二区三区| 国产传媒视频在线观看| 一本色道久久综合亚洲精品小说 | 电影k8一区二区三区久久| ts人妖交友网站| 九九热hot精品视频在线播放| 欧美国产在线视频| 国产精品一区专区| 毛片大全在线观看| 欧美一级欧美一级| 国产欧美日韩在线观看| 国产羞羞视频在线观看| 国产999精品久久| 久久青青草综合| 天天射综合网视频| 天天做天天躁天天躁| 一区二区久久久| 日韩在线观看| 日本五十路在线| 激情久久久久久久久久久久久久久久| 欧美精品在线观看| 日本韩国欧美| 中文字幕亚洲综合久久| av免费在线一区| 日产精品99久久久久久| 成人小视频在线| 亚洲xxxxxx| 高清一区二区三区四区五区| 人妖欧美一区二区| 日韩欧美亚洲精品| 国产精品免费久久| 天堂av在线网| 欧美日韩亚洲视频| 精品国产一区二区三区久久久蜜臀| 一区二区在线视频| 日韩理论电影中文字幕| 一区二区av| 亚洲一区二区三区四区在线免费观看 | 欧美日韩激情小视频| yellow字幕网在线| 亚洲欧美日韩第一区| 亚洲有吗中文字幕| 成人看片视频| 欧美日韩国产免费观看视频| 日本精品在线视频| 日本欧美一区二区三区| 日韩欧美小视频| 欧美a v在线播放| 色偷偷av一区二区三区| 亚洲影视一区二区三区| 中文在线最新版天堂8| 欧美成人精品在线播放| 盗摄精品av一区二区三区| 自由的xxxx在线视频| 亚洲国产小视频在线观看| 欧美自拍偷拍| 第四色亚洲色图| 欧美猛男性生活免费| 国产精品日本欧美一区二区三区| 性综艺节目av在线播放| 国产精品久久久久久久美男| 色狠狠av一区二区三区| 一区二区高清| av日韩中文| 日韩av手机在线看| 可以看av的网站久久看| 色婷婷成人在线| 国外成人在线播放| 波多野结衣在线一区| 免费在线稳定资源站| 97香蕉超级碰碰久久免费软件| 久久深夜福利| 久草视频视频在线播放| 日韩美女福利视频| 国产精品久久久久久亚洲毛片| 欧州一区二区三区| 欧美日韩一区二区三区69堂| 欧美日韩精品三区| av中文一区| 精品视频免费观看| 伊人影院久久| 国产私人影院| 日本成人黄色片| 国产精品伦理一区二区| 麻豆视频久久| 成人h动漫在线| 久久影视电视剧免费网站清宫辞电视| 久久久www免费人成精品| 日本一级理论片在线大全| 147欧美人体大胆444| 精品美女久久久久久免费| 99久久精品网站| 青青草在线免费观看| 岛国一区二区三区高清视频| 天天影视涩香欲综合网| 欧美一区视频| 日本电影在线观看| 免费观看成人在线视频| 26uuu亚洲国产精品| 亚洲精品第一国产综合野| 色777狠狠狠综合伊人| 色资源在线观看| 亚洲77777| 日韩av在线直播| 国产剧情一区| 一个色的综合| 亚洲一区二区精品| 亚洲国产精品精华液网站| 久久精品72免费观看| 国产精品美女久久久久久不卡 | av资源网在线播放| www.国产在线视频| 国产成人一区二区在线| 日韩av在线网址| 色综合久久六月婷婷中文字幕| 国产高清在线精品| 在线电影一区二区| 欧美精品色图| 一区二区在线免费播放| 91精品久久久久久粉嫩| 黄色影院在线播放| а√天堂www在线а√天堂视频| 蜜臀av.com| 日本一区二区精品| 欧洲久久久久久| 国产精品久久久久久超碰| 日韩精品中午字幕| 国产视频在线一区二区| 蜜桃av一区二区| 蜜桃传媒在线观看免费进入 | 久久99影院| 欧美猛男性生活免费| av激情亚洲男人天堂| 91视频一区| 国产超碰精品| 涩涩漫画在线观看| 成人有码在线视频| 日韩美女视频一区二区在线观看| 欧美岛国激情| 伊甸园亚洲一区| 亚洲精品第一| 在线免费成人| 欧美亚洲大片| 成人亚洲性情网站www在线观看| 99sesese| 国产极品在线视频| 法国空姐在线观看免费| 日韩a在线播放| 国产a视频免费观看| 欧美狂野激情性xxxx在线观| 麻豆亚洲一区| 日韩欧美亚洲区| 国产日产欧美一区二区| japanese在线播放| 亚洲激情一区二区| 免费一区二区三区在在线视频| 国产成人精品视频|