国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

對人勝率84%,DeepMind AI首次在西洋陸軍棋中達到人類專家水平

人工智能 新聞
在AI游戲領域,人工智能的進展往往通過棋盤游戲進行展現。棋盤游戲可以度量和評估人類和機器如何在受控環境中發展和執行策略。

DeepMind在游戲AI領域又有了新成績,這次是西洋陸軍棋。

在AI游戲領域,人工智能的進展往往通過棋盤游戲進行展現。棋盤游戲可以度量和評估人類和機器如何在受控環境中發展和執行策略。數十年來,提前規劃的能力一直是AI在國際象棋、跳棋、將棋和圍棋等完美信息游戲以及撲克、蘇格蘭場等不完美信息游戲中取得成功的關鍵。

西洋陸軍棋(Stratego)已經成為AI研究的下一批前沿領域之一。該游戲的階段和機制的可視化圖如下1a所示。該游戲面臨以下兩個挑戰。

其一,Stratego 的博弈樹具有 10535個可能狀態,這要多于已經得到充分研究的不完美信息游戲無限制德州撲克(10164個可能狀態)和圍棋游戲(10360個可能狀態)。

其二,在Stratego的給定環境中行動需要在游戲開始時為每個玩家推理超過1066個可能的部署,而撲克只有103對可能的牌。圍棋和國際象棋等完美信息游戲沒有私有部署階段,因此避免了Stratego中這一挑戰帶來的復雜性。

目前,我們不可能使用基于模型的SOTA完美信息規劃技術,也無法使用將游戲分解為獨立情況的不完美信息搜索技術。

圖片由于這些原因,Stratego為研究大規模策略交互提供了一個挑戰性基準。與大多數棋盤游戲相似,Stratego測試我們循序地做出相對較慢、深思熟慮和合乎邏輯決策的能力。又由于該游戲的結構非常復雜,AI研究社區幾乎沒能取得什么進展,人工智能體只能達到人類業余玩家的水平。因此,在從零開始且沒有人類演示數據的情況下,開發智能體學習端到端策略以在Stratego的不完美信息下做出最佳決策,仍然是AI研究面臨的重大挑戰之一。

近日,在 DeepMind 的一篇最新論文中,研究者提出了 DeepNash,它是一種無需人類演示、以無模型(model-free)方式學習Stratego自我博弈的智能體。DeepNask擊敗了以往的SOTA AI智能體,并在該游戲最復雜的變體Stratego Classic中實現了專家級人類玩家的水平。

圖片

圖片論文地址:https://arxiv.org/pdf/2206.15378.pdf。

DeepNash的核心是一種條理化、無模型的強化學習算法,研究者稱為Regularized Nash Dynamics(R-NaD)。DeepNash將R-NaD與一個深度神經網絡架構相結合,并收斂到納什均衡,這意味著它學會了在激勵競爭下比賽,并對試圖利用它的競爭對手具有穩健性。

下圖 1 b 為DeepNash方法的高級概覽。研究者在Gravon游戲平臺上將它的表現與各種SOTA Stratego機器人和人類玩家進行了系統比較。結果顯示,DeepNash以超過 97% 的勝率擊敗了當前所有 SOTA機器人,并與人類玩家進行了激烈競爭,在2022年度和各個時期的排行榜上都位列前3名,勝率達到了84%。

圖片

研究者表示,在學習算法中不部署任何搜索方法的情況下,AI算法第一次能夠在復雜棋盤游戲中達到人類專家水平,也是AI首次在Stratego游戲中實現人類專家水平。

方法概述

DeepNash 采用端到端的學習策略運行Stratego,并在游戲開始時將棋子戰術性地放在棋盤上(見圖 1a),在game-play階段,研究者使用集成深度 RL 和博弈論方法。智能體旨在通過自我博弈來學習一個近似的納什均衡。

該研究采用無需搜索的正交路徑,并提出了一種新方法,將自我博弈中的無模型(model-free)強化學習與博弈論算法思想——正則化納什動力學 (RNaD) 相結合。

無模型部分意味著該研究沒有建立一個明確的對手模型來跟蹤對手可能出現的狀態,博弈論部分基于這樣的思路,即在強化學習方法的基礎上,他們引導智能體學習行為朝著納什均衡的方向發展。這種組合方法的主要優點是不需要從公共狀態中顯式地模擬私有狀態。另外一個復雜的挑戰是,將這種無模型的強化學習方法與R-NaD相結合,使西洋陸軍棋中的自我博弈與人類專家玩家相競爭,這是迄今為止尚未實現的。這種組合的DeepNash方法如上圖1b所示。

正則化納什動力學算法

DeepNash 中使用的 R-NaD 學習算法是基于正則化思想以達到收斂的目的,R-NaD 依賴于三個關鍵步驟,如下圖 2b所示:圖片

圖片

DeepNash 由三個組件組成:(1) 核心訓練組件 R-NaD;(2) 微調學習策略以減少模型采取極不可能動作的殘差概率,以及 (3) 測試時進行后處理以過濾掉低概率動作并糾錯。

DeepNash 的網絡由以下組件構成:一個帶有殘差塊和跳躍連接的 U-Net 主干,以及四個頭。第一個 DeepNash 頭將價值函數輸出為標量,而其余三個頭通過在部署和游戲期間輸出其動作的概率分布來編碼智能體策略。這個觀測張量的結構如圖3所示:
圖片

圖片

實驗結果

DeepNash 還與幾個現有的Stratego計算機程序進行了評估:Probe 在 Computer Stratego 世界錦標賽中,其中有三年奪冠(2007 年、2008 年、2010 年);Master of the Flag在 2009 年贏得了該冠軍;Demon of Ignorance 是 Stratego 的開源實現;Asmodeus、Celsius、Celsius1.1、PeternLewis 和 Vixen 是 2012 年在澳大利亞大學編程競賽中提交的程序,此次比賽PeternLewis 獲勝。

如表1所示,DeepNash在對抗所有這些智能體時贏得了絕大多數的游戲,盡管DeepNash沒有接受過對抗訓練,只是使用自我博弈。

圖片

 
下圖 4a舉例說明DeepNash中的一些經常重復的部署方式;圖 4b 顯示了 DeepNash(藍方)在棋子中落后(輸掉了 7 和 8)但在信息方面領先的情況,因為紅方的對手有 10、9、8 和兩個7。圖 4c 中的第二個示例顯示了 DeepNash 有機會用其 9 捕獲對手的 6,但這一舉措并未被考慮,可能是因為DeepNash認為保護 9 的身份被認為比物質收益更重要。

圖片

 
在下圖5a中,研究者展示了積極的唬騙(positive bluffing),玩家假裝棋子的價值高于實際價值。DeepNash用未知棋子Scout (2) 追逐對手的8,并假裝它是10。對手認為這個棋子可能是10,將其引導至Spy旁邊(可以捕獲10)。但是,為了奪取這枚棋子,對手的Spy輸給了DeepNash的Scout。

第二類唬騙為消極唬騙(negative bluffing),如下圖5b所示。它與積極唬騙相反,玩家假裝棋子的價值低于實際價值。

下圖5c展示了一種更復雜的bluff,其中DeepNash將其未公開的Scout (2)接近對手的10,這可以被解釋為Spy。這種策略實際上允許藍方在幾步之后用7捕獲紅方的5,因此獲得material,阻止5捕獲Scout (2),并揭示它實際上并不是Spy。

圖片


責任編輯:姜華 來源: 機器之心
相關推薦

2016-12-02 20:10:22

人工智能唇語序列

2025-11-10 08:51:00

LLMOpenAI模型

2020-08-04 10:04:31

AI人工智能機器人

2024-09-29 16:00:26

2019-01-25 18:37:20

AI數據科技

2020-08-25 10:47:50

中國芯片韓國美國

2021-11-10 14:55:49

AI 數據人工智能

2023-11-13 10:34:39

AI科學

2024-01-07 22:58:56

2025-05-26 08:53:00

2023-10-04 09:46:35

2025-03-03 09:12:00

2024-08-09 14:47:00

2025-09-15 08:45:00

AI自然語言模型

2024-04-01 07:00:00

模型AI

2020-06-10 10:32:10

人工智能技術編輯

2024-10-30 19:18:27

2024-11-29 14:10:00

神經網絡AI

2021-12-07 13:56:25

DeepMind紐結理論表象理論

2019-02-14 15:06:50

AI人工智能臨床診斷
點贊
收藏

51CTO技術棧公眾號

96久久久久久| h片在线观看网站| 激情文学一区| 亚洲成人在线网| 五月亚洲综合| 美国十次了思思久久精品导航| 欧美激情视频播放| 免费毛片在线看片免费丝瓜视频| 中文字幕一区免费在线观看| 欧美在线3区| 久久国产电影| 深夜福利一区二区| av网站在线播放| 日本一区二区三区久久久久久久久不| 精品日本一区二区| 国产精品一区在线看| 国产精品三级av| 国产精品成人v| 国内精品在线一区| 欧美黄色视屏| 午夜影院久久久| 日韩中字在线观看| 免费在线日韩av| 国产美女精品视频| 7m精品国产导航在线| 日韩高清中文字幕| 嫩草香蕉在线91一二三区| 亚洲国产视频网站| 国产精品无码专区av在线播放 | 欧美日韩在线视频首页| 久久国产精品视频在线观看| 久久精品女人| 精品国产免费一区二区三区 | 国产伦一区二区三区| 日韩性生活视频| 97成人资源| 亚洲精品一区二区三区99| 在线免费av电影| 欧美日韩在线免费视频| 在线欧美一级视频| 性做久久久久久免费观看欧美| 日韩中文字幕a| 国产日韩视频一区二区三区| 国产午夜福利100集发布| 国产精品99久久久久久似苏梦涵| 午夜精品亚洲一区二区三区嫩草 | а√天堂中文在线资源bt在线| 亚洲三级久久久| 香蕉521av成人网| 国产精品视频线看| 男女无套免费网站| 亚洲另类色综合网站| 成人av网页| 亚洲激情一二三区| 中文字字幕在线中文乱码电影| 亚洲欧美aⅴ...| 浪潮av在线| 狠狠躁天天躁日日躁欧美| 神马久久高清| 欧美日韩国产另类不卡| a篇片在线观看网站| 欧美成人a视频| 亚洲男人av| 日韩中文字幕国产| 都市激情亚洲| 成人性生交大片免费看视频直播 | 亚洲精品666| 日本道不卡免费一区| 国产视频福利一区| 国产欧美日本| 日本丰满少妇黄大片在线观看| 国产不卡免费视频| 免费在线激情视频| www.久久热| 亚洲一区二区三区四区五区xx| 91小视频在线观看| 久久99精品国产99久久| 日本麻豆一区二区三区视频| 中文字幕中文字幕在线中一区高清| 国产在线视频不卡二| 精品久久久久久久久久中文字幕| 国产日韩v精品一区二区| 淫视频在线观看| 欧美精品高清视频| 国产另类xxxxhd高清| 欧美极品少妇xxxxⅹ裸体艺术| 国产一区二区三区电影在线观看| 成人三级视频在线观看一区二区 | 精品久久久久久无码中文野结衣| 欧美韩日一区二区三区四区| gay网站在线| 91黄色小视频| 女人让男人操自己视频在线观看| 久久国产精品影视| 午夜精品剧场| 福利视频一区二区三区四区| 国产精品理论片在线观看| www.亚洲免费| 日韩在线中文字| 欧美激情91| 免费在线观看视频a| 懂色av影视一区二区三区| 日本不卡网站| 国产精品欧美一区二区| 久久国产婷婷国产香蕉| 麻豆一区二区三区四区精品蜜桃| 欧美不卡视频一区| 精品国产aⅴ| 午夜久久久久久久久久久| 亚洲一二三区不卡| 日本综合字幕| 91精品婷婷国产综合久久蝌蚪| 国产激情91久久精品导航| 最新在线观看av网站| 亚洲人精选亚洲人成在线| 国产精品久久久久久久久久10秀| 亚洲va欧美va国产综合久久| 色偷偷av一区二区三区乱| 国产极品一区| 亚洲综合999| 18video性欧美19sex高清| 欧美一级在线亚洲天堂| 麻豆精品久久精品色综合| igao视频网在线视频| 色青青草原桃花久久综合| 夜久久久久久| 在线观看欧美黄色| 成人激情免费网站| 国产精品白丝av嫩草影院| 92看片淫黄大片看国产片| 久久毛片亚洲| 国产精品成人aaaaa网站| 97av在线播放| 1024国产精品| 国产又黄又大久久| 日韩毛片视频| 亚洲同志男男gay1069网站| a一区二区三区| jizz在线免费观看| 精品国产二区在线| 国产精品成人久久久久| 久久成人精品无人区| av在线日韩国产精品| 国产a级全部精品| 91免费在线视频观看| 黄色漫画在线免费看| av一区二区在线看| 精品福利一区二区| 狠狠做六月爱婷婷综合aⅴ| 久久综合色视频| 日韩av在线资源| 青娱乐精品在线视频| 日韩av资源站| 国产精品综合不卡av| 亚洲人成网站精品片在线观看| 视频免费一区二区| 九色自拍视频在线观看| 亚洲精品国产精品乱码不99按摩| 国产视频一区三区| 日本高清中文字幕在线| 国产精品久久九九| 欧美午夜在线一二页| 国产精品vip| 户外极限露出调教在线视频| 午夜欧美在线| 伊人成人在线视频| 成年人视频网站| 亚洲韩国欧洲国产日产av| 蜜桃久久av| av伦理在线| 糖心vlog在线免费观看| 亚洲女人初尝黑人巨大| 极品美女销魂一区二区三区| 欧产日产国产精品视频| 伊人精品久久久久7777| 亚洲精品久久久久久下一站| 蜜臀91精品一区二区三区| 国产精品电影| 国产www免费| 影音先锋中文在线视频| 三级成人黄色影院| 国产不卡精品在线| 91欧美精品| 欧美日韩国产麻豆| 欧美日韩国产免费观看| 日本电影全部在线观看网站视频| 日韩欧美精品久久| 尤物99国产成人精品视频| 国产亚洲欧美一级| 精品高清在线| 在线观看免费视频你懂的| 一区二区三区四区视频在线观看| 日韩av一区在线观看| 99re热这里只有精品视频| 天海翼亚洲一区二区三区| 精品资源在线看| 最新av在线免费观看| 国外成人免费在线播放| 在线免费av一区| 国产成人在线视频网站|