国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清華、北大等發布Self-Play強化學習最新綜述

人工智能 新聞
這篇綜述首先梳理了自博弈的基本背景,包括多智能體強化學習框架和博弈論的基礎知識。

本文作者來自于清華大學電子工程系,北京大學人工智能研究院、第四范式、騰訊和清華-伯克利深圳學院。其中第一作者張瑞澤為清華大學碩士,主要研究方向為博弈算法。通訊作者為清華大學電子工程系汪玉教授、于超博后和第四范式研究員黃世宇博士。

自博弈(self-play)指的是智能體通過與自身副本或歷史版本進行博弈而進行演化的方法,近年來在強化學習領域受到廣泛重視。這篇綜述首先梳理了自博弈的基本背景,包括多智能體強化學習框架和博弈論的基礎知識。隨后,提出了一個統一的自博弈算法框架,并在此框架下對現有的自博弈算法進行了分類和對比。此外,通過展示自博弈在多種場景下的應用,架起了理論與實踐之間的橋梁。文章最后總結了自博弈面臨的開放性挑戰,并探討了未來研究方向。

  • 論文題目:A Survey on Self-play Methods in Reinforcement Learning
  • 研究機構:清華大學電子工程系、北京大學人工智能研究院、第四范式、騰訊、清華-伯克利深圳學院
  • 論文鏈接:https://arxiv.org/abs/2408.01072

引言

強化學習(Reinforcement Learning,RL)是機器學習中的一個重要范式,旨在通過與環境的交互不斷優化策略。基本問題建模是基于馬爾可夫決策過程(Markov decision process,MDP),智能體通過觀察狀態、根據策略執行動作、接收相應的獎勵并轉換到下一個狀態。最終目標是找到能最大化期望累計獎勵的最優策略。

自博弈(self-play)通過與自身副本或過去版本進行交互,從而實現更加穩定的策略學習過程。自博弈在圍棋、國際象棋、撲克以及游戲等領域都取得了一系列的成功應用。在這些場景中,通過自博弈訓練得到了超越人類專家的策略。盡管自博弈應用廣泛,但它也伴隨著一些局限性,例如可能收斂到次優策略以及顯著的計算資源需求等。

本綜述組織架構如下:首先,背景部分介紹了強化學習框架和基礎的博弈論概念。其次,在算法部分提出了一個統一的框架,并根據該框架將現有的自博弈算法分為四類,進行系統的比較和分析。在之后的應用部分中,展示自博弈具體如何應用到具體的復雜博弈場景。最后,進一步討論了自博弈中的開放問題和未來的研究方向,并進行總結。

背景

該部分分別介紹了強化學習框架以及博弈論基本知識。強化學習框架我們考慮最一般的形式:部分可觀察的馬爾可夫博弈(partially observable Markov game, POMGs),即多智能體場景,且其中每個智能體無法完全獲取環境的全部狀態。

博弈論基礎知識介紹了博弈具體類型,包括(非)完美信息博弈和(非)完全信息博弈、標準型博弈和擴展型博弈、傳遞性博弈和非傳遞性博弈、階段博弈和重復博弈、團隊博弈等。同樣也介紹了博弈論框架重要概念包括最佳回應(Best responce, BR)和納什均衡 (Nash equilibrium, NE)等。

復雜的博弈場景分析通常采用更高層次的抽象,即元博弈(meta-game)。元博弈關注的不再是單獨的動作,而是更高層的復雜策略。在這種高層次抽象下,復雜博弈場景可以看作是特殊的標準型博弈,策略集合由復雜策略組成。元策略(meta-strategies)是對策略集合中的復雜策略進行概率分配的混合策略。

在該部分最后,我們介紹了多種常用的自博弈評估指標,包括 Nash convergence(NASHCONV)、Elo、Glicko、Whole-History Rating(WHR) 和 TrueSkill。

算法

我們定義了一個統一的自博弈框架,并將自博弈算法分為四大類:傳統自博弈算法、PSRO 系列算法、基于持續訓練的系列算法和后悔最小化系列算法。

算法框架

圖片

首先,該框架(算法1)的輸入定義如下:

● : 在策略集合  中,每個策略  都取決于一個策略條件函數 。

● : 策略集合的交互矩陣。 描述了如何為策略  采樣對手。例如, 可以用每個對手策略采樣概率表示(此時  如下圖所示)。


圖片


● : 元策略求解器(Meta Strategy Solver,MSS)。輸入是表現矩陣 ,并生成一個新的交互矩陣  作為輸出。 表示策略  的表現水平。

該框架(算法1)的核心步驟說明:

● 算法1偽代碼第1行: 表示整個策略集合的總訓練輪數,也即策略池中每個策略的更新次數。

● 算法1偽代碼第3行:各個策略初始化可以選擇隨機初始化、預訓練模型初始化或者是繼承之前訓練完成的策略進行初始化。

● 算法1偽代碼第4行:可以選用不同的 ORACLE 算法得到訓練策略,最直接的方式是計算 BR 。但是由于對于復雜任務來說,直接計算 BR 難度高,因此通常選擇訓練近似BR來訓練策略,可以采用強化學習(算法2),進化算法(算法3),后悔最小化(算法4)等方法。

圖片圖片圖片

類型一:傳統自博弈算法

傳統自博弈算法從單一策略開始,逐步擴展策略池,包括Vanilla self-play(訓練時每次對手都選擇最新生成的策略),Fictitious self-play(訓練時每次對手都在現有訓練完的策略中均勻采樣),δ-uniform self-play(訓練時每次對手都在現有訓練完的最近的百分之δ策略中均勻采樣),Prioritized Fictitious Self-play(根據優先級函數計算當前訓練完的策略的優先級,訓練時每次對手都根據這個優先級進行采樣),Independent RL(訓練時雙方策略都會改變,對手策略不再固定)。

類型二:PSRO 系列算法

類似于傳統自博弈算法,Policy-Space Response Oracle(PSRO)系列算法同樣從單一策略開始,通過計算 ORACLE 逐步擴展策略池,這些新加入的策略是對當前元策略的近似 BR 。PSRO 系列與傳統自博弈算法的主要區別在于,PSRO 系列采用了更復雜的MSS,旨在處理更復雜的任務。例如,α-PSRO 使用了基于 α-rank 的 MSS 來應對多玩家的復雜博弈。

類型三:持續訓練系列算法

PSRO 系列算法中存在的兩個主要挑戰:首先,由于訓練成本大,通常在每次迭代中截斷近似BR計算,會將訓練不充分的策略添加到策略池;其次,在每次迭代中會重復學習基本技能,導致效率較低。為了解決這些挑戰,基于持續訓練系列的算法提倡反復訓練所有策略。與前面提到的兩類最大區別是,持續訓練系列算法同時訓練整個策略池策略。這類算法采用多個訓練周期,并在每個訓練周期內依次訓練策略池所有策略,而不再是通過逐步擴展策略池進行訓練。

類型四:后悔最小化系列算法

另一類自博弈算法是基于后悔最小化的算法。基于后悔最小化的算法與其他類別的主要區別在于,它們優先考慮累積的長期收益,而不僅僅關注單次回合的表現。這種方法可以訓練得到更具攻擊性和適應性的策略,避免隨著時間的推移被對手利用。這些算法要求玩家在多輪中推測并適應對手的策略。這種情況通常在重復博弈中觀察到,而不是單回合游戲中。例如,在德州撲克或狼人游戲中,玩家必須使用欺騙、隱瞞和虛張聲勢的策略,以爭取整體勝利,而不僅僅是贏得一局。

各類型算法比較與總結圖

圖片

應用

在本節中,我們通過將三類經典場景來介紹自博弈的經典應用:棋類游戲,通常涉及完全信息;牌類游戲(包括麻將),通常涉及不完全信息;以及電子游戲,具有實時動作而非簡單回合制游戲。

場景一:棋類游戲

棋類游戲領域,絕大多數是完全信息游戲,曾因引入兩項關鍵技術而發生革命性變化:位置評估和蒙特卡羅樹搜索。這兩項技術在象棋、西洋跳棋、黑白棋、西洋雙陸棋等棋盤游戲方面展現了超越人類的效果。相比之下,當這些技術應用于圍棋時,由于圍棋棋盤布局種類遠超于上述提到的棋類游戲,因此僅能達到業余水平的表現。直到 DeepMind 推出了 AlphaGo 系列而發生了革命性的變化,AlphaGo 系列算法利用自博弈的強大功能顯著提升了性能,為圍棋領域設立了新的基準。

除了圍棋,還有一種難度較高的棋類游戲是“軍棋”(Stratego)。與大多數完全信息的棋類游戲不同,“軍棋”是一個兩人參與的不完全信息棋盤游戲。游戲分為兩個階段:部署階段,玩家秘密安排他們的單位,為戰略深度奠定基礎;以及游戲階段,目標是推斷對手的布局并奪取他們的旗幟。DeepNash 采用基于進化的自博弈算法 R-NaD 達到了世界第三的人類水平。

場景二:牌類游戲

德州撲克(Texas Hold’em)是一種歐美流行的撲克游戲,適合 2 到 10 名玩家,當玩家數量增加,游戲變得更加復雜。此外,有三種下注形式:無限注、固定注和底池限注。每種形式在具有不同的游戲復雜度。在牌類游戲中,游戲抽象對于簡化游戲復雜程度至關重要,可以將游戲的龐大狀態空間減少到更容易處理的數量。Cepheus 采用后悔最小化系列算法 CFR+ 解決了最容易的雙人有限注德州撲克。對于更復雜的雙人無限注德州撲克,DeepStack 和 Libratus 采用子博弈重新計算的方式來實時做出決策,擊敗職業德州撲克選手。Pluribus 在 Libratus 基礎上更進一步解決了六人無限注德州撲克。

斗地主需要同時考慮農民之間的合作和農民地主之間的競爭。斗地主同樣是不完全信息博弈,這為游戲增加了不確定性和策略深度。DeltaDou 是基于 AlphaZero 開發的首個實現專家級斗地主表現的算法。之后的 DouZero 通過選擇采樣方法而非樹搜索方法來降低訓練成本,采用自博弈獲取訓練數據。

麻將同樣基于不完全信息做出決策,此外,麻將的牌數更多,獲勝牌型也更為復雜,對 AI 更具挑戰性。Suphx 通過監督學習和自我博弈強化學習成為首個達到與人類專家水平的算法。NAGA 和騰訊設計的 LuckyJ 同樣也在在線平臺上達到了人類專家水平。

場景三:電子游戲

與傳統棋類游戲和牌類游戲不同,電子游戲通常具有實時操作、更長的動作序列以及更廣泛的動作空間和觀察空間。在星際爭霸(StarCraft)中,玩家需要收集資源、建設基地并組建軍隊,通過精心的計劃和戰術執行,使對方玩家失去所有建筑物,來取得勝利。AlphaStar 使用監督學習、端到端的強化學習和分層自博弈訓練策略,在星際爭霸II的 1v1 模式比賽中擊敗了職業玩家。

MOBA游戲要求兩支玩家隊伍各自操控他們獨特的英雄,互相競爭以摧毀對方的基地。每個英雄都有獨特的技能,并在隊伍中扮演特定的角色,也無法觀測全部地圖。OpenAI Five 在簡化版本的 Dota 2 中擊敗了世界冠軍隊,其訓練過程使用混合類型自博弈,有 80% 的概率進行 Naive self-play,20% 的概率使用 Prioritized self-play。騰訊同樣采用自博弈訓練在王者榮耀游戲 1v1 和 5v5 模式中都擊敗了職業選手。

Google Research Football(GRF)是一個開源的足球模擬器,輸入是高層次的動作,需要考慮隊友之間的合作和兩個隊伍之間的競爭,且每隊有 11 人。TiKick 通過 WeKick 的自博弈數據進行模仿學習,再利用分布式離線強化學習開發了一個多智能體AI。TiZero將課程學習與自博弈結合,無需專家數據,達到了比TiKick更高的TrueSkill評分。

各場景類型比較與總結圖

圖片

討論

自博弈方法因其獨特的迭代學習過程和適應復雜環境的能力而表現出卓越的性能,然而,仍有不少方向值得進一步研究。

雖然許多算法在博弈論理論基礎上提出,但在將這些算法應用于復雜的現實場景時,往往存在理論與現實應用的差距。例如,盡管 AlphaGo、AlphaStar 和 OpenAI Five 在實證上取得了成功,但它們的有效性缺乏正式的博弈論證明。

隨著團隊數量和團隊內玩家數量的增加,自博弈方法的可擴展性面臨顯著挑戰。例如,在 OpenAI Five 中,英雄池的大小被限制在僅17個英雄。根本上是由于自博弈方法在計算和存儲兩個方面訓練效率有限:由于自博弈的迭代特性,智能體反復與自身或過去的版本對戰,因而計算效率較低;自博弈需要維護一個策略池,因而對存儲資源需求較高。

憑借卓越的能力和廣泛的泛化性,大型語言模型(LLM)被認為是實現人類水平智能的潛在基礎。為了減少對人工標注數據的依賴,自博弈方法被利用到微調LLM來增強LLM的推理性能。自博弈方法還在構建具有強大戰略能力的基于 LLM 的代理方面做出了貢獻,在”外交“游戲中達到了人類水平的表現。盡管近期取得了一些進展,將自博弈應用于 LLM 仍處于探索階段。

自我博弈面另一個挑戰是其在現實具身場景中無法直接應用。其迭代特性需要大量的試驗和錯誤,很難直接在真實環境中完成。因此,通常只能在仿真器中進行自博弈訓練,再將自博弈有效部署到現實具身場景中,關鍵問題仍在于克服 Sim2Real 差距。

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-02-10 13:19:50

2025-05-08 09:10:30

2025-08-08 03:00:00

AI大型語言模型LLM

2024-10-12 17:14:12

2021-11-10 15:03:17

深度學習算法人工智能

2025-10-11 04:00:00

2023-02-07 13:24:42

應用學習

2025-09-01 14:16:40

AI開源模型

2025-09-09 09:09:00

2022-02-10 15:15:41

人工智能強化學習谷歌

2024-10-08 15:20:00

AI安全

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2022-11-03 14:13:52

強化學習方法

2025-11-07 08:51:41

2024-04-11 12:30:52

模型數據

2018-11-14 10:28:38

AI數據科技

2024-01-10 17:25:00

AI數據

2024-11-13 15:00:00

模型數據

2025-04-25 09:12:00

點贊
收藏

51CTO技術棧公眾號

欧美视频在线一区| 欧美三区不卡| 丰满的少妇愉情hd高清果冻传媒| 色先锋aa成人| 欧美亚洲高清| 在线视频99| 欧美疯狂性受xxxxx另类| 成人av中文字幕| 欧美日韩女优| 日韩精品在线中文字幕| 中文字幕成人精品久久不卡| 国产成人免费xxxxxxxx| 国产精品久久麻豆| 精品国产一区三区| 亚洲一区二区欧美激情| 欧美高清视频看片在线观看| 久久久久久久久久久久91| 欧美高清在线视频观看不卡| 99精品久久久久久| 日本一区二区三区播放| 天天天干夜夜夜操| 性欧美长视频免费观看不卡| 久久av综合网| 欧美精品一区二区不卡| 麻豆精品视频在线观看视频| rebdb初裸写真在线观看| 中文字幕中文字幕在线中心一区 | 一本大道色婷婷在线| 一区二区日本伦理| 亚洲人成在线观看| 99精品视频一区二区三区| 成人香蕉社区| 国产三级av在线| 国产精品一区二区三区观看| 日韩久久久久久| 懂色av一区二区在线播放| 亚洲精品在线播放| 91se在线观看| 久久草视频在线看| 亚洲欧美日韩在线高清直播| 97精品久久久久中文字幕| 亚洲制服欧美中文字幕中文字幕| 中文字幕一区二区三区久久网站| 久久香蕉精品香蕉| 日本不良网站在线观看| 日本成人a视频| 高清国产一区| 亚洲影视在线播放| 激情综合色综合久久| 国产精品中文| 免费看涩涩视频| 久久艳妇乳肉豪妇荡乳av| 麻豆成人在线看| 亚洲美女区一区| 久久精品欧美一区| 日韩激情电影| 奇米777四色影视在线看| 久久精品视频播放| 欧美在线视频免费观看| 日本欧美一区二区三区乱码| 亚洲国产福利| 国产精品人人爽人人爽| 成人在线视频网站| 亚洲成**性毛茸茸| 久久午夜电影网| 欧美丰满老妇| 大桥未久在线视频| 国产野外作爱视频播放| 超碰在线观看97| 国产午夜精品免费一区二区三区| 亚洲丝袜另类动漫二区| 性欧美videos另类喷潮| 精品自拍视频| 在线视频福利| 蜜臀在线免费观看| 国产成人一区二区三区小说| 91精品国产91久久久久久一区二区| 成人三级伦理片| 欧美xxav| 国产精品原创视频| 无线免费在线视频| 亚洲中文字幕无码一区二区三区| 日本一区二区不卡| 亚洲加勒比久久88色综合| 亚洲乱码精品一二三四区日韩在线| 国产精品入口66mio| 超碰成人97| 日本动漫同人动漫在线观看| 色成人亚洲网| 欧美日韩在线免费观看视频| 日本久久91av| 亚洲女人被黑人巨大进入| 天涯成人国产亚洲精品一区av| 国产精选一区二区三区| 日韩成人激情| 四虎精品一区二区免费 | 欧美日韩一级片在线观看| av在线播放不卡| 激情av一区| 欧美freesex8一10精品| 国产91足控脚交在线观看| 91网页在线看| 欧美 国产 综合| 欧洲亚洲一区| 国产伦精品免费视频| 精品久久久av| 日韩精品资源二区在线| 午夜精品久久久久久久| 久久久精品日韩欧美| 日本视频中文字幕一区二区三区| 日韩av大片| 7m精品国产导航在线| wwwwxxxx在线观看| 狠狠色伊人亚洲综合网站l| 波多野结衣xxxx| 日本香蕉视频在线观看| 蜜桃av噜噜一区二区三| 国产精品美女主播在线观看纯欲| 日韩在线一区二区三区免费视频| 日韩一二在线观看| 色哟哟国产精品| 一个色综合网站| 国产视频视频一区| 国v精品久久久网| 蜜臀久久99精品久久久久久9| 综合久久十次| 成人高清电影网站| 99re8这里有精品热视频免费 | 2020最新国产精品| 澳门成人av网| 91精选在线| 天堂a√中文在线| 免费一级电影| 午夜精品久久久内射近拍高清| 欧美精品v日韩精品v国产精品| 欧美日韩免费观看视频| 亚洲片区在线| 337p粉嫩大胆噜噜噜噜噜91av| 久久综合亚洲社区| 欧美一区二区三区视频在线| 欧美日韩黄色大片| 亚洲欧美在线观看| 久久久噜噜噜久久中文字幕色伊伊| 激情偷乱视频一区二区三区| 每日更新成人在线视频| 国模吧视频一区| 91中文字幕精品永久在线| 美女午夜精品| 试看120秒一区二区三区| 成人在线视频播放| 麻豆mv在线看| 19禁羞羞电影院在线观看| a毛片在线看免费观看| 麻豆网站在线看| 国产在线视频网址| 二人午夜免费观看在线视频| 日本v片在线免费观看| 亚洲第一成年免费网站| 欧美最顶级a∨艳星| 国产网友自拍电影在线| 九色福利视频| 全部a∨一极品视觉盛宴| 男男视频在线观看网站| 国产黄色免费电影| 国产精品自拍视频在线| 成人免费视频免费观看| 懂色中文一区二区三区在线视频 | 色婷婷国产精品| 国产96在线亚洲| 精品亚洲a∨一区二区三区18| 精品176极品一区| 亚洲成人1区| 亚洲一区二区三区中文字幕在线观看 | 国产精品成人aaaaa网站| 国产激情综合五月久久| 国产精品91在线| 成人精品一区二区三区电影免费 | 久久天堂精品| 精品一区二区在线看| 国产精品91一区二区| 97久久超碰精品国产| 国产精品久久久久久久久晋中 | 亚洲精选在线观看| 中文字幕国产精品久久| 久久精品99久久香蕉国产色戒| 超薄丝袜一区二区| 一区二区欧美在线| 91cn在线观看| 亚洲最大色网站| 亚洲aⅴ男人的天堂在线观看| 精品欧美午夜寂寞影院| 亚洲一区站长工具| 国产成人久久精品一区二区三区| 高清一区二区三区av| 日韩av影院| 欧美高清不卡| 久久精品国产秦先生| 久久色.com| 亚洲成人资源网| 欧美日本在线播放|