国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

星際爭霸II協(xié)作對抗基準(zhǔn)超越SOTA,新型Transformer架構(gòu)解決多智能體強(qiáng)化學(xué)習(xí)問題

人工智能 新聞
這項(xiàng)工作又讓我們回到那個老生常談的問題:Transformer 真的是萬能的嗎?

多智能體強(qiáng)化學(xué)習(xí) (MARL) 是一個具有挑戰(zhàn)性的問題,它不僅需要識別每個智能體的策略改進(jìn)方向,而且還需要將單個智能體的策略更新聯(lián)合起來,以提高整體性能。最近,這一問題得到初步解決,有研究人員引入了集中訓(xùn)練分散執(zhí)行 (CTDE) 的方法,使智能體在訓(xùn)練階段可以訪問全局信息。然而,這些方法無法涵蓋多智能體交互的全部復(fù)雜性。

事實(shí)上,其中一些方法還被證明是失敗的。為了解決這個問題,有人提出多智能體優(yōu)勢分解定理。在此基礎(chǔ)上,HATRPO 和 HAPPO 算法被推導(dǎo)出來。然而,這些方法也存在局限性,這些方法仍然依賴于精心設(shè)計(jì)的最大化目標(biāo)。

近年來,序列模型(SM)在自然語言處理(NLP)領(lǐng)域取得了實(shí)質(zhì)性進(jìn)展。如 GPT 系列、BERT 在廣泛的下游任務(wù)上表現(xiàn)出色,并且在小樣本泛化任務(wù)上取得了較強(qiáng)的性能。

由于序列模型與語言的序列特性自然契合,因此可用于語言任務(wù),但是序列方法不僅限于 NLP 任務(wù),而是一種廣泛適用的通用基礎(chǔ)模型。例如,在計(jì)算機(jī)視覺 (CV) 中,可以將圖像分割成子圖并將它們按序列排列,就好像它們是 NLP 任務(wù)中的 token 一樣 。近期比較出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

隨著 Transformer 等網(wǎng)絡(luò)架構(gòu)的出現(xiàn),序列建模技術(shù)也引起了 RL 社區(qū)的極大關(guān)注,這促進(jìn)了一系列基于 Transformer 架構(gòu)的離線 RL 開發(fā)。這些方法在解決一些最基本的 RL 訓(xùn)練問題方面顯示出了巨大的潛力。

盡管這些方法取得了顯著的成功,但沒有一種方法被設(shè)計(jì)用來建模多智能體系統(tǒng)中最困難 (也是 MARL 獨(dú)有的) 的方面——智能體之間的交互。事實(shí)上,如果簡單地賦予所有智能體一個 Transformer 策略,并對其進(jìn)行單獨(dú)訓(xùn)練,這仍然不能保證能提高 MARL 聯(lián)合性能。因此,雖然有大量強(qiáng)大的序列模型可用,但 MARL 并沒有真正利用序列模型性能優(yōu)勢。

如何用序列模型解決 MARL 問題?來自上海交通大學(xué)、Digital Brain Lab、牛津大學(xué)等的研究者提出一種新型多智能體 Transformer(MAT,Multi-Agent Transformer)架構(gòu),該架構(gòu)可以有效地將協(xié)作 MARL 問題轉(zhuǎn)化為序列模型問題,其任務(wù)是將智能體的觀測序列映射到智能體的最優(yōu)動作序列。

本文的目標(biāo)是在 MARL 和 SM 之間建立橋梁,以便為 MARL 釋放現(xiàn)代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構(gòu),它利用多智能體優(yōu)勢分解定理,將聯(lián)合策略搜索問題轉(zhuǎn)化為序列決策過程,這樣多智能體問題就會表現(xiàn)出線性時間復(fù)雜度,最重要的是,這樣做可以保證 MAT 單調(diào)性能提升。與 Decision Transformer 等先前技術(shù)需要預(yù)先收集的離線數(shù)據(jù)不同,MAT 以在線策略方式通過來自環(huán)境的在線試驗(yàn)和錯誤進(jìn)行訓(xùn)練。

圖片


  • 論文地址:https://arxiv.org/pdf/2205.14953.pdf
  • 項(xiàng)目主頁:https://sites.google.com/view/multi-agent-transformer

為了驗(yàn)證 MAT,研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明,與 MAPPO 和 HAPPO 等強(qiáng)基線相比,MAT 具有更好的性能和數(shù)據(jù)效率。此外,該研究還證明了無論智能體的數(shù)量如何變化,MAT 在沒見過的任務(wù)上表現(xiàn)較好,可是說是一個優(yōu)秀的小樣本學(xué)習(xí)者。

背景知識

在本節(jié)中,研究者首先介紹了協(xié)作 MARL 問題公式和多智能體優(yōu)勢分解定理,這是本文的基石。然后,他們回顧了現(xiàn)有的與 MAT 相關(guān)的 MARL 方法,最后引出了 Transformer。

圖片

傳統(tǒng)多智能體學(xué)習(xí)范式(左)和多智能體序列決策范式(右)的對比。

問題公式

協(xié)作 MARL 問題通常由離散的部分可觀察馬爾可夫決策過程(Dec-POMDPs)圖片來建模。

多智能體優(yōu)勢分解定理

智能體通過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值,定義如下。

圖片

?定理 1(多智能體優(yōu)勢分解):令 i_1:n 為智能體的排列。如下公式始終成立,無需進(jìn)一步假設(shè)。

圖片

?重要的是,定理 1 提供了一種用于指導(dǎo)如何選擇漸進(jìn)式改進(jìn)行動的直覺。

現(xiàn)有 MARL 方法

研究者總結(jié)了目前兩種 SOTA MARL 算法,它們都構(gòu)建在近端策略優(yōu)化(Proximal Policy Optimization, PPO)之上。PPO 是一種以簡潔性和性能穩(wěn)定性聞名的 RL 方法。

多智能體近端策略優(yōu)化(MAPPO)是首個將 PPO 應(yīng)用于 MARL 中的最直接方法。

圖片

?異構(gòu)智能體近端策略優(yōu)化(HAPPO)是目前的 SOTA 算法之一,它可以充分利用定理 (1) 以實(shí)現(xiàn)具有單調(diào)提升保證的多智能體信任域?qū)W習(xí)。

圖片

Transformer 模型?

基于定理 (1) 中描述的序列屬性以及 HAPPO 背后的原理,現(xiàn)在可以直觀地考慮用 Transformer 模型來實(shí)現(xiàn)多智能體信任域?qū)W習(xí)。通過將一個智能體團(tuán)隊(duì)視作一個序列,Transformer 架構(gòu)允許建模具有可變數(shù)量和類型的智能體團(tuán)隊(duì),同時可以避免 MAPPO/HAPPO 的缺點(diǎn)。

多智能體 Transformer

為了實(shí)現(xiàn) MARL 的序列建模范式,研究者提供的解決方案是多智能體 Transformer(MAT)。應(yīng)用 Transformer 架構(gòu)的思路源于這樣一個事實(shí),即智能體觀察序列 (o^i_1,...,o^i_n) 輸入與動作序列(a^ i_1 , . . . , a^i_n)輸出之間的映射是類似于機(jī)器翻譯的序列建模任務(wù)。正如定理 (1) 所回避的,動作 a^i_m 依賴于先前所有智能體的決策 a ^i_1:m?1。

因此,如下圖(2)所示,MAT 中包含了一個用于學(xué)習(xí)聯(lián)合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。

圖片


?編碼器的參數(shù)用φ 表示,它以任意順序獲取觀察序列(o^i_1 , . . . , o^i_n),并將它們傳遞通過幾個計(jì)算塊。每個塊都由一個自注意力機(jī)制、一個多層感知機(jī)(MLP)和殘差連接組成,以防止隨深度增加出現(xiàn)梯度消失和網(wǎng)絡(luò)退化。

解碼器的參數(shù)用θ表示,它將嵌入的聯(lián)合動作 a^i_0:m?1 , m = {1, . . . n}(其中 a^i_0 是指示解碼開始的任意符號)傳遞到解碼塊序列。至關(guān)重要的是,每個解碼塊都有一個掩碼的自注意力機(jī)制。為了訓(xùn)練解碼器,研究者將如下裁剪 PPO 目標(biāo)最小化。

圖片

MAT 中的詳細(xì)數(shù)據(jù)流如下動圖所示。

圖片

?實(shí)驗(yàn)結(jié)果

為了評估 MAT 是否符合預(yù)期,研究者在星際爭霸 II 多智能體挑戰(zhàn)(SMAC)基準(zhǔn)(MAPPO 在之上具有優(yōu)越性能)和多智能體 MuJoCo 基準(zhǔn)上(HAPPO 在之上具有 SOTA 性能)對 MAT 進(jìn)行了測試。

此外,研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準(zhǔn)上了對 MAT 進(jìn)行了擴(kuò)展測試。前者提供了一系列具有挑戰(zhàn)性的雙手操作任務(wù),后者提供了一系列足球游戲中的合作場景。

最后,由于 Transformer 模型通常在小樣本任務(wù)上表現(xiàn)出強(qiáng)大的泛化性能,因此研究者相信 MAT 在未見過的 MARL 任務(wù)上也能具有類似強(qiáng)大的泛化能力。因此,他們在 SMAC 和多智能體 MuJoCo 任務(wù)上設(shè)計(jì)了零樣本和小樣本實(shí)驗(yàn)。

協(xié)作 MARL 基準(zhǔn)上的性能

如下表 1 和圖 4 所示,對于 SMAC、多智能體 MuJoCo 和 Bi-DexHands 基準(zhǔn)來說,MAT 在幾乎所有任務(wù)上都顯著優(yōu)于 MAPPO 和 HAPPO,表明它在同構(gòu)和異構(gòu)智能體任務(wù)上強(qiáng)大的構(gòu)建能力。此外,MAT 還得到了優(yōu)于 MAT-Dec 的性能,表明了 MAT 設(shè)計(jì)中解碼器架構(gòu)的重要性。

圖片


圖片

同樣地,研究者在 Google Research Football 基準(zhǔn)上也得到了類似的性能結(jié)果,如下圖 5 所示。

圖片

MAT 用于小樣本學(xué)習(xí)

表 2 和表 3 中總結(jié)了每種算法的零樣本和小樣本結(jié)果,其中粗體數(shù)字表示最佳性能。

研究者還提供了數(shù)據(jù)相同情況下 MAT 的性能,其與對照組一樣從頭開始訓(xùn)練。如下表所示,MAT 獲得了大多數(shù)最好成績,這證明了 MAT 小樣本學(xué)習(xí)的強(qiáng)大泛化性能。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-23 15:04:16

2023-08-28 06:52:29

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2019-08-12 08:43:53

GitHub代碼開發(fā)者

2017-02-24 13:27:37

阿里開源

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-11-30 08:00:00

人工智能數(shù)據(jù)技術(shù)

2012-01-17 12:39:09

JavaSwing

2010-07-19 13:15:49

星際爭霸2

2013-07-02 13:52:07

2010-01-14 17:17:32

云計(jì)算

2025-06-03 06:12:03

2023-11-18 09:48:23

2014-03-18 15:23:58

星際爭霸ARM平臺

2020-11-04 10:28:48

機(jī)器人人工智能系統(tǒng)

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-11-18 14:35:00

智能體AI

2025-10-10 08:33:49

2021-03-05 15:03:36

算法強(qiáng)化學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

99热这里只有精品8| 在线播放一区| 国语对白做受69| 国产免费观看高清视频| 亚洲一区视频| 99视频在线播放| 青青草久久爱| 夜夜精品视频一区二区| 国产精品青青在线观看爽香蕉| 日韩一级理论片| 成人精品天堂一区二区三区| 91精品国产高清一区二区三区蜜臀| 蓝色福利精品导航| 国产一区二区在线免费| 老鸭窝av在线| 中文字幕亚洲欧美在线不卡| 久久久精品三级| 少妇无码av无码专区在线观看| 日本高清久久| 欧美二区三区91| 成人毛片视频网站| 成人网18免费网站| 在线观看成人黄色| 操操操综合网| 久久综合九色综合久久久精品综合| 成人激情在线观看| 亚洲一区网址| 欧美精品第1页| 精品无吗乱吗av国产爱色| 亚洲男女自偷自拍| 91国产在线免费观看| 免费欧美网站| 久久伊人色综合| 丁香六月婷婷| www.成人网| 欧美影片第一页| 青青草视频免费在线观看| 日日噜噜噜夜夜爽亚洲精品| 久久影视一区二区| 热久久精品免费视频| 亚洲激情图片小说视频| 有码在线播放| 日韩欧美激情在线| 麻豆免费网站| 亚洲一区av在线| av毛片免费看| 亚洲一区视频在线| 手机在线看福利| 99久久国产综合精品女不卡| 九九九九精品九九九九| 国产婷婷精品| 2023国产精品| 日本a级黄色| 欧美日韩三级在线| 桃花岛成人影院| 韩国精品久久久999| 91精品动漫在线观看| 亚洲一区二区三区午夜| 亚洲国产精品v| 免费福利在线观看| 亚洲三级av在线| 国产99久久| 日韩成人av电影在线| 久久久综合视频| 黄色片视频在线观看| 亚洲精品一区久久久久久| 中文字幕伦av一区二区邻居| 日日噜噜噜噜夜夜爽亚洲精品| 国产欧美中文在线| 国产丝袜在线| 88国产精品欧美一区二区三区| 国产精品丝袜xxxxxxx| 国产视频一区二区三区在线播放 | 日本在线不卡视频| 天天干在线影院| 欧美一区二区三区在线看| 狂野欧美激情性xxxx欧美| …久久精品99久久香蕉国产| 久久精品一区| 高清孕妇孕交╳╳交| 国产偷亚洲偷欧美偷精品| 色婷婷亚洲mv天堂mv在影片| а√天堂中文在线资源8| 欧美精品videos性欧美| 精品少妇一区二区三区日产乱码 | 精品视频免费在线| 欧美人体视频xxxxx| 欧美精品成人91久久久久久久| 欧美88av| 国产美女玉足交| 久久九九有精品国产23| 国产精品xvideos88| 男人添女人下面高潮视频| 夜夜嗨av一区二区三区网页 | 99精产国品一二三产品香蕉| 亚洲夂夂婷婷色拍ww47 | 久久精品99国产精品酒店日本| 成人短视频app| 日本一区二区在线播放| 亚洲精品高清在线| 国产乱国产乱300精品| 高清国产福利在线观看| 精品久久久久久久久久久久久久 | 国产日韩欧美一区二区| 亚洲v日韩v欧美v综合| 欧美日韩一区二区免费在线观看| 国产精品一区二区精品视频观看| av久久久久久| 91久久国产综合久久| 香蕉久久网站| 又黄又爽的视频在线观看| 日韩美女免费视频| 国产精品扒开腿做爽爽爽男男| 国产一区二区0| 色三级在线观看| 国产欧美日韩专区发布| 国产精品成人在线观看| 日本黄色成人| 天堂8在线天堂资源bt| 亚洲电影av在线| 视频一区视频二区中文| 风间由美一区| 亚洲精品女av网站| 午夜精品久久久久久久99樱桃| 极品束缚调教一区二区网站| 成年人视频观看| 亚洲美女免费精品视频在线观看| 久久精品三级| 伊人在我在线看导航| 欧美影视一区二区| 91精品国产麻豆国产自产在线 | 国产精品粉嫩av| 18久久久久久| 欧美国产一区二区| 久久久久毛片免费观看| 成人在线观看a| 久久久久久久久久久网站| 福利电影一区二区| 日韩综合av| 日韩视频一区二区在线观看| 成人短片线上看| 男女激情片在线观看| 国产精品高清免费在线观看| 亚洲蜜臀av乱码久久精品 | 日韩和欧美一区二区三区| av今日在线| www.激情网| 欧美成人小视频| 亚洲嫩草精品久久| 亚洲成人二区| 免费在线观看av网站| 欧美日韩国产高清视频| 国产视频欧美视频| 久久综合九色综合97婷婷女人| 成人综合婷婷国产精品久久| 久久国产精品99久久人人澡| 米奇777在线欧美播放| 97人人精品| 韩国一区二区三区视频| 国产精品丝袜久久久久久不卡| 欧美性一二三区| 99热国产在线| 精品黑人一区二区三区久久| 国产三级三级三级精品8ⅰ区| 久久久亚洲高清| 91精品久久久久久综合五月天 | 国产成人久久精品一区二区三区| 黄色国产小视频| 国产精品久久久久久婷婷天堂| 色噜噜狠狠色综合欧洲selulu| 国产一级精品aaaaa看| 欧美v国产在线一区二区三区| 99久久国产综合精品女不卡| 4438成人网| 国产成人亚洲精品青草天美| 国产一区二区三区| 宅男午夜视频| 亚洲bbw性色大片| 欧美另类极品videosbest最新版本 | 国产一区二区三区四区五区美女| 久久性色av| 日韩精品专区在线影院重磅| 亚洲精品ww久久久久久p站| 婷婷亚洲图片| 亚洲人成网www| 亚洲三级网址| 黑丝美女一区二区| 中文字幕乱码亚洲无线精品一区| 国产精品成人**免费视频| 中文字幕在线视频网站| 欧美大胆成人| 欧美一级大片在线视频| 国产精品调教视频| 最新精品国偷自产在线| 色综合综合网| 午夜性色一区二区三区免费视频| 激情综合网站| 成人一区二区三区视频在线观看| 日韩高清一区在线| 豆国产96在线|亚洲|