星際爭霸II協(xié)作對抗基準(zhǔn)超越SOTA，新型Transformer架構(gòu)解決多智能體強(qiáng)化學(xué)習(xí)問題

作者：機(jī)器之心 2022-06-02 15:19:31

這項(xiàng)工作又讓我們回到那個老生常談的問題：Transformer 真的是萬能的嗎？

多智能體強(qiáng)化學(xué)習(xí) (MARL) 是一個具有挑戰(zhàn)性的問題，它不僅需要識別每個智能體的策略改進(jìn)方向，而且還需要將單個智能體的策略更新聯(lián)合起來，以提高整體性能。最近，這一問題得到初步解決，有研究人員引入了集中訓(xùn)練分散執(zhí)行 (CTDE) 的方法，使智能體在訓(xùn)練階段可以訪問全局信息。然而，這些方法無法涵蓋多智能體交互的全部復(fù)雜性。

事實(shí)上，其中一些方法還被證明是失敗的。為了解決這個問題，有人提出多智能體優(yōu)勢分解定理。在此基礎(chǔ)上，HATRPO 和 HAPPO 算法被推導(dǎo)出來。然而，這些方法也存在局限性，這些方法仍然依賴于精心設(shè)計(jì)的最大化目標(biāo)。

近年來，序列模型（SM）在自然語言處理（NLP）領(lǐng)域取得了實(shí)質(zhì)性進(jìn)展。如 GPT 系列、BERT 在廣泛的下游任務(wù)上表現(xiàn)出色，并且在小樣本泛化任務(wù)上取得了較強(qiáng)的性能。

由于序列模型與語言的序列特性自然契合，因此可用于語言任務(wù)，但是序列方法不僅限于 NLP 任務(wù)，而是一種廣泛適用的通用基礎(chǔ)模型。例如，在計(jì)算機(jī)視覺 (CV) 中，可以將圖像分割成子圖并將它們按序列排列，就好像它們是 NLP 任務(wù)中的 token 一樣。近期比較出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

隨著 Transformer 等網(wǎng)絡(luò)架構(gòu)的出現(xiàn)，序列建模技術(shù)也引起了 RL 社區(qū)的極大關(guān)注，這促進(jìn)了一系列基于 Transformer 架構(gòu)的離線 RL 開發(fā)。這些方法在解決一些最基本的 RL 訓(xùn)練問題方面顯示出了巨大的潛力。

盡管這些方法取得了顯著的成功，但沒有一種方法被設(shè)計(jì)用來建模多智能體系統(tǒng)中最困難 (也是 MARL 獨(dú)有的) 的方面——智能體之間的交互。事實(shí)上，如果簡單地賦予所有智能體一個 Transformer 策略，并對其進(jìn)行單獨(dú)訓(xùn)練，這仍然不能保證能提高 MARL 聯(lián)合性能。因此，雖然有大量強(qiáng)大的序列模型可用，但 MARL 并沒有真正利用序列模型性能優(yōu)勢。

如何用序列模型解決 MARL 問題？來自上海交通大學(xué)、Digital Brain Lab、牛津大學(xué)等的研究者提出一種新型多智能體 Transformer(MAT，Multi-Agent Transformer)架構(gòu)，該架構(gòu)可以有效地將協(xié)作 MARL 問題轉(zhuǎn)化為序列模型問題，其任務(wù)是將智能體的觀測序列映射到智能體的最優(yōu)動作序列。

本文的目標(biāo)是在 MARL 和 SM 之間建立橋梁，以便為 MARL 釋放現(xiàn)代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構(gòu)，它利用多智能體優(yōu)勢分解定理，將聯(lián)合策略搜索問題轉(zhuǎn)化為序列決策過程，這樣多智能體問題就會表現(xiàn)出線性時間復(fù)雜度，最重要的是，這樣做可以保證 MAT 單調(diào)性能提升。與 Decision Transformer 等先前技術(shù)需要預(yù)先收集的離線數(shù)據(jù)不同，MAT 以在線策略方式通過來自環(huán)境的在線試驗(yàn)和錯誤進(jìn)行訓(xùn)練。

論文地址：https://arxiv.org/pdf/2205.14953.pdf
項(xiàng)目主頁：https://sites.google.com/view/multi-agent-transformer

為了驗(yàn)證 MAT，研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明，與 MAPPO 和 HAPPO 等強(qiáng)基線相比，MAT 具有更好的性能和數(shù)據(jù)效率。此外，該研究還證明了無論智能體的數(shù)量如何變化，MAT 在沒見過的任務(wù)上表現(xiàn)較好，可是說是一個優(yōu)秀的小樣本學(xué)習(xí)者。

背景知識

在本節(jié)中，研究者首先介紹了協(xié)作 MARL 問題公式和多智能體優(yōu)勢分解定理，這是本文的基石。然后，他們回顧了現(xiàn)有的與 MAT 相關(guān)的 MARL 方法，最后引出了 Transformer。

傳統(tǒng)多智能體學(xué)習(xí)范式（左）和多智能體序列決策范式（右）的對比。

問題公式

協(xié)作 MARL 問題通常由離散的部分可觀察馬爾可夫決策過程（Dec-POMDPs）來建模。

多智能體優(yōu)勢分解定理

智能體通過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值，定義如下。

?定理 1（多智能體優(yōu)勢分解）：令 i_1:n 為智能體的排列。如下公式始終成立，無需進(jìn)一步假設(shè)。

?重要的是，定理 1 提供了一種用于指導(dǎo)如何選擇漸進(jìn)式改進(jìn)行動的直覺。

現(xiàn)有 MARL 方法

研究者總結(jié)了目前兩種 SOTA MARL 算法，它們都構(gòu)建在近端策略優(yōu)化（Proximal Policy Optimization, PPO）之上。PPO 是一種以簡潔性和性能穩(wěn)定性聞名的 RL 方法。

多智能體近端策略優(yōu)化（MAPPO）是首個將 PPO 應(yīng)用于 MARL 中的最直接方法。

?異構(gòu)智能體近端策略優(yōu)化（HAPPO）是目前的 SOTA 算法之一，它可以充分利用定理 (1) 以實(shí)現(xiàn)具有單調(diào)提升保證的多智能體信任域?qū)W習(xí)。

Transformer 模型?

基于定理 (1) 中描述的序列屬性以及 HAPPO 背后的原理，現(xiàn)在可以直觀地考慮用 Transformer 模型來實(shí)現(xiàn)多智能體信任域?qū)W習(xí)。通過將一個智能體團(tuán)隊(duì)視作一個序列，Transformer 架構(gòu)允許建模具有可變數(shù)量和類型的智能體團(tuán)隊(duì)，同時可以避免 MAPPO/HAPPO 的缺點(diǎn)。

多智能體 Transformer

為了實(shí)現(xiàn) MARL 的序列建模范式，研究者提供的解決方案是多智能體 Transformer（MAT）。應(yīng)用 Transformer 架構(gòu)的思路源于這樣一個事實(shí)，即智能體觀察序列（o^i_1，...，o^i_n）輸入與動作序列（a^ i_1 , . . . , a^i_n）輸出之間的映射是類似于機(jī)器翻譯的序列建模任務(wù)。正如定理 (1) 所回避的，動作 a^i_m 依賴于先前所有智能體的決策 a ^i_1:m?1。

因此，如下圖（2）所示，MAT 中包含了一個用于學(xué)習(xí)聯(lián)合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。

?編碼器的參數(shù)用φ 表示，它以任意順序獲取觀察序列（o^i_1 , . . . , o^i_n），并將它們傳遞通過幾個計(jì)算塊。每個塊都由一個自注意力機(jī)制、一個多層感知機(jī)（MLP）和殘差連接組成，以防止隨深度增加出現(xiàn)梯度消失和網(wǎng)絡(luò)退化。

解碼器的參數(shù)用θ表示，它將嵌入的聯(lián)合動作 a^i_0:m?1 , m = {1, . . . n}（其中 a^i_0 是指示解碼開始的任意符號）傳遞到解碼塊序列。至關(guān)重要的是，每個解碼塊都有一個掩碼的自注意力機(jī)制。為了訓(xùn)練解碼器，研究者將如下裁剪 PPO 目標(biāo)最小化。

MAT 中的詳細(xì)數(shù)據(jù)流如下動圖所示。

?實(shí)驗(yàn)結(jié)果

為了評估 MAT 是否符合預(yù)期，研究者在星際爭霸 II 多智能體挑戰(zhàn)（SMAC）基準(zhǔn)（MAPPO 在之上具有優(yōu)越性能）和多智能體 MuJoCo 基準(zhǔn)上（HAPPO 在之上具有 SOTA 性能）對 MAT 進(jìn)行了測試。

此外，研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準(zhǔn)上了對 MAT 進(jìn)行了擴(kuò)展測試。前者提供了一系列具有挑戰(zhàn)性的雙手操作任務(wù)，后者提供了一系列足球游戲中的合作場景。

最后，由于 Transformer 模型通常在小樣本任務(wù)上表現(xiàn)出強(qiáng)大的泛化性能，因此研究者相信 MAT 在未見過的 MARL 任務(wù)上也能具有類似強(qiáng)大的泛化能力。因此，他們在 SMAC 和多智能體 MuJoCo 任務(wù)上設(shè)計(jì)了零樣本和小樣本實(shí)驗(yàn)。

協(xié)作 MARL 基準(zhǔn)上的性能

如下表 1 和圖 4 所示，對于 SMAC、多智能體 MuJoCo 和 Bi-DexHands 基準(zhǔn)來說，MAT 在幾乎所有任務(wù)上都顯著優(yōu)于 MAPPO 和 HAPPO，表明它在同構(gòu)和異構(gòu)智能體任務(wù)上強(qiáng)大的構(gòu)建能力。此外，MAT 還得到了優(yōu)于 MAT-Dec 的性能，表明了 MAT 設(shè)計(jì)中解碼器架構(gòu)的重要性。