国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

人工智能 新聞
AI:「我能戰勝頂級人類玩家。」另一個 AI:「我玩不過人類,但我能戰勝你。」

近幾年,自我博弈中的強化學習已經在圍棋、國際象棋等一系列游戲中取得了超人的表現。此外,自我博弈的理想化版本還收斂于納什均衡。納什均衡在博弈論中非常著名,該理論是由博弈論創始人,諾貝爾獎獲得者約翰 · 納什提出,即在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略被稱作支配性策略。如果任意一位參與者在其他所有參與者的策略確定的情況下,其選擇的策略是最優的,那么這個組合就被定義為納什均衡。

之前就有研究表明,自我博弈中看似有效的連續控制策略也可以被對抗策略利用,這表明自我博弈可能并不像之前認為的那樣強大。這就引出一個問題:對抗策略是攻克自我博弈的方法,還是自我博弈策略本身就能力不足?

為了回答這個問題,來自 MIT、 UC 伯克利等機構的研究者進行了一番研究,他們選擇自我博弈比較擅長的領域進行,即圍棋(Go)。具體而言,他們對公開可用的最強圍棋 AI 系統 KataGo 進行攻擊。針對一個固定的網絡(凍結 KataGo),他們訓練了一個端到端的對抗策略,僅用了訓練 KataGo 時 0.3% 的計算,他們就獲得了一個對抗性策略,并用該策略攻擊 KataGo,在沒有搜索的情況下,他們的策略對 KataGo 的攻擊達到了 99% 的勝率,這與歐洲前 100 名圍棋選手實力相當。而當 KataGo 使用足夠的搜索接近超人的水平時,他們的勝率達到了 50%。至關重要的是,攻擊者(本文指該研究學到的策略)并不能通過學習通用的圍棋策略來取勝。

這里我們有必要說一下 KataGo,正如本文所說的,他們在撰寫本文時,KataGo 還是最強大的公開圍棋 AI 系統。在搜索的加持下,可以說 KataGo 非常強大,戰勝了本身就是超人類的 ELF OpenGo 和 Leela Zero。現在該研究的攻擊者戰勝 KataGo,可以說是非常厲害了。

圖片

圖 1:對抗策略打敗了 KataGo 受害者。

圖片

  • 論文地址:https://arxiv.org/pdf/2211.00241.pdf
  • 研究主頁:https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board

有趣的是,該研究提出的對抗策略無法戰勝人類玩家,即使是業余選手也能大幅勝過所提模型。

攻擊方法

KataGo、AlphaZero 等之前的方法通常是訓練智能體自己玩游戲,游戲對手是智能體自己。而在 MIT、UC 伯克利等機構的這項研究中,攻擊者(adversary)和固定受害者(victim)智能體之間進行博弈,利用這種方式訓練攻擊者。該研究希望訓練攻擊者利用與受害者智能體的博弈交互,而不只是模仿博弈對手。這個過程被稱為「victim-play」。

圖片

在常規的自我博弈中,智能體通過從自己的策略網絡中采樣來建模對手的動作,這種方法的確適用于自我博弈。但在 victim-play 中,從攻擊者的策略網絡中建模受害者的方法就是錯誤的。為了解決這個問題,該研究提出了兩類對抗型 MCTS(A-MCTS),包括:

  • A-MCTS-S:在 A-MCTS-S 中,研究者將攻擊者的搜索過程設置如下:當受害者移動棋子時,從受害者策略網絡中采樣;當輪到攻擊者移動棋子時,從攻擊者策略網絡中采樣。
  • A-MCTS-R:由于 A-MCTS-S 低估了受害者的能力,該研究又提出了 A-MCTS-R,在 A-MCTS-R 樹中的每個受害者節點上為受害者運行 MCTS。然而,這種變化增加了攻擊者訓練和推理的計算復雜性。

在訓練過程中,該研究針對與 frozen KataGo 受害者的博弈來訓練對抗策略。在沒有搜索的情況下,攻擊者與 KataGo 受害者的博弈可以實現 >99% 的勝率,這與歐洲前 100 名圍棋選手的實力相當。此外,經過訓練的攻擊者在與受害者智能體博弈的 64 個回合中實現了超過 80% 的勝率,研究者估計其實力與最優秀的人類圍棋棋手相當。

值得注意的是,這些游戲表明,該研究提出的對抗策略并不是完全在做博弈,而是通過欺騙 KataGo 在對攻擊者有利的位置落子,以過早地結束游戲。事實上,盡管攻擊者能夠利用與最佳人類圍棋選手相當的博弈策略,但它卻很容易被人類業余愛好者擊敗。

為了測試攻擊者與人類對弈的水平,該研究讓論文一作 Tony Tong Wang 與攻擊者模型實際對弈了一番。Wang 在該研究項目之前從未學習過圍棋,但他還是以巨大的優勢贏了攻擊者模型。這表明該研究提出的對抗性策略雖然可以擊敗能戰勝人類頂級玩家的 AI 模型,但它卻無法擊敗人類玩家。這或許可以說明一些 AI 圍棋模型是存在 bug 的。

評估結果

攻擊受害者策略網絡?

首先,研究者對自身攻擊方法對 KataGo (Wu, 2019) 的表現進行了評估,結果發現 A-MCTS-S 算法針對無搜索的 Latest(KataGo 的最新網絡)實現了 99% 以上的勝率。

如下圖 3 所示,研究者評估了自身對抗策略對 Initial 和 Latest 策略網絡的表現。他們發現在大部分訓練過程中,自身攻擊者對兩個受害者均取得很高的勝率(高于 90%)。但是隨著時間推移,攻擊者對 Latest 過擬合,對 Initial 的勝率也下降到 20% 左右。

研究者還評估了對 Latest 的最佳對抗策略檢查點,取得了超過 99% 的勝率。并且,如此高的勝率是在對抗策略僅訓練 3.4 × 10^7 個時間步長的情況下實現的,這一數據是受害者時間步長的 0.3%。

圖片

遷移到有搜索的受害者?

研究者將對抗策略成功地遷移到了低搜索機制上,并評估了上一節訓練的對抗策略對有搜索 Latest 的能力。如下圖 4a 所示,他們發現在 32 個受害者回合時,A-MCTS-S 對受害者的勝率下降到了 80%。但這里,受害者在訓練與推理時都沒有搜索。

圖片

此外,研究者還測試了 A-MCTS-R,并發現它的表現更好,在 32 個受害者回合時對 Latest 取得了超過 99% 的勝率,但在 128 個回合時勝率下降到 10% 以下。

在圖 4b 中,研究者展示了當攻擊者來到 4096 個回合時,A-MCTS-S 對 Latest 最高取得了 54% 的勝率。這與 A-MCTS-R 在 200 個回合時的表現非常相似,后者取得了 49% 的勝率。

其他評估

如下圖 9 所示,研究者發現,盡管 Latest 是一個更強大的智能體,但針對 Latest 訓練的攻擊者在對抗 Latest 時要比 Initial 表現更好。

圖片?

最后,研究者探討了攻擊原理,包括受害者的 value 預測和硬編碼防御評估。如下圖 5 所示,所有的基線攻擊都要比他們訓練的對抗策略表現差得多。

圖片

更多技術細節請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-11-10 13:57:48

2023-09-14 10:07:38

人工智能數據管理

2025-11-06 10:00:00

2021-03-04 07:24:32

開發者搜索編程

2023-02-20 09:39:32

2019-11-29 08:00:36

AI 數據人工智能

2020-12-02 10:13:03

AI 數據人工智能

2025-07-10 00:16:00

2023-12-29 14:17:16

2023-11-07 06:56:00

模型微軟

2023-02-03 11:34:18

ChatGPT人工智能

2025-01-14 14:54:57

2021-09-01 00:02:42

人工智能機器學習技術

2020-07-13 11:20:23

Python魔法命令代碼

2022-08-08 08:39:45

艾米麗·瓊斯游戲賽車人工智能

2018-06-14 09:52:03

2018-03-02 10:58:17

人工智能AI律師

2025-05-21 08:23:52

IO開發Java

2024-11-13 10:26:25

2025-08-20 07:12:43

點贊
收藏

51CTO技術棧公眾號

黄色在线看片| av理论在线观看| 美女无遮挡网站| 一区二区成人精品| 久草在线资源视频| 久久嫩草精品久久久久| 日本最新一区二区三区视频观看| 欧美日韩在线网站| 国内精品久久久久久中文字幕| 亚洲风情在线资源| 欧美xxxxxxxxx| 超碰免费在线观看| 亚洲国产精品综合小说图片区| av视屏在线播放| 可以在线观看的av| 先锋影音网一区二区| 亚洲高清久久久| 毛片一区二区三区| 欧美日韩国产不卡在线看| 欧美色图国产精品| 国产成人一区二区在线| 久久久免费毛片| 欧美精品videossex性护士| 99视频这里有精品| 欧美激情精品久久久久久变态| 91在线高清视频| 久久亚洲道色| 日本精品免费一区二区三区| 国产成人精品三级高清久久91| 4k岛国日韩精品**专区| 九九亚洲视频| 92国产精品视频| 国产欧美一级| 视频一区二区三| 国产黄人亚洲片| 欧美视频免费播放| 自拍偷在线精品自拍偷无码专区 | 久久久久久久久91| 女同久久另类99精品国产| 欧美亚洲视频在线看网址| 亚洲三级精品| 电影午夜精品一区二区三区| 午夜在线精品| 成年人看的毛片| 亚洲三级电影网站| 成人影院免费观看| 337p日本欧洲亚洲大胆精品| 99只有精品| 热re91久久精品国99热蜜臀| 欧美激情在线| 国产免费内射又粗又爽密桃视频| 久久久久久久久久久久久夜| 在线观看你懂得| 亚洲国产精品嫩草影院久久| 一区二区三区四区高清视频 | 97人人模人人爽视频一区二区| 羞羞答答国产精品www一本| 人妻互换免费中文字幕| 91免费看视频| 天堂在线免费av| 日韩精品中文字幕久久臀| www国产91| 色乱码一区二区三区熟女| 国产在线精品国自产拍免费| 北条麻妃在线视频观看| 一区二区不卡在线播放| 日本在线免费播放| 日韩在线视频一区| 999精品一区| 中文字幕一区二区三区最新| 国产欧美精品一区aⅴ影院| 最新在线地址| 亚洲视频免费一区| 欧美顶级大胆免费视频| 中文字幕剧情在线观看一区| 国产精品福利影院| 97影院秋霞午夜在线观看| 欧美成人小视频| 国产精品porn| 国产精品视频网址| 色综合欧美在线| 黄色三级视频在线| 欧美喷水一区二区| 日本欧美精品久久久| 国产aⅴ精品一区二区三区色成熟| 亚洲精品自拍网| 欧美一区二区福利视频| 波多野结衣在线一区二区| 欧美成人免费在线| 成功精品影院| 欧美freesextv| 天堂精品一区二区三区| 国产午夜精品久久久久久免费视| 在线欧美一级视频| xvideos成人免费中文版| 欧美日本二区| 日韩不卡一二三| 日韩av在线网| 欧美日韩国产在线一区| 四季av一区二区| 日韩av影视综合网| 中文在线日韩| 成人图片小说| 在线看日韩av| 日本特黄久久久高潮| 日韩电影网址| 欧美亚州一区二区三区| 成人性生交大合| 天堂成人av| 亚洲综合在线播放| 国产精品日韩精品欧美在线| rebdb初裸写真在线观看| 亚洲综合中文字幕在线| 国产精品午夜春色av| 亚洲激情小视频| 精品一区二区三区免费| 免费人成短视频在线观看网站| 亚洲欧美日韩国产精品| 伊人激情综合| 五月婷婷激情综合网| 91九色在线看| 91九色偷拍| 一二三区精品视频| 电影91久久久| 91传媒免费视频| 欧美性感美女一区二区| www.在线观看av| 欧美一二三区精品| 91久久久久| freemovies性欧美| 成人免费看吃奶视频网站| 国产精品久久久久久久裸模| av成人在线观看| 农民人伦一区二区三区| 亚洲欧美中文字幕| 久久国产精品99久久久久久老狼| 黄色的网站在线观看| 国产自产在线视频一区| 在线免费不卡电影| 日韩视频精品在线观看| 欧美日本一道| 欧美亚州在线观看| 欧美一级二级三级乱码| 日韩福利视频网| 青春草视频在线| 五月天色一区| 日韩精品资源二区在线| 老司机午夜免费精品视频| 呦呦在线视频| 欧美1o一11sex性hdhd| 欧美日韩国产精品自在自线| av成人黄色| 黄视频免费在线看| 9色porny| 中文字幕av一区二区三区谷原希美 | 蜜桃视频在线免费| 国产精品av一区| 欧美刺激午夜性久久久久久久| 免费在线视频一区| 日本不卡1234视频| 97国产精东麻豆人妻电影| 亚州精品天堂中文字幕| 亚洲永久精品大片| 99热免费精品| 秋霞国产精品| 亚洲这里只有精品| 91精品久久久久久久91蜜桃| 一区二区三区在线视频免费| 九九综合久久| 深夜福利视频在线免费观看| 亚洲free性xxxx护士白浆| 欧美性色黄大片| 日韩电影在线观看一区| 亚洲成人av观看| 国产情侣av自拍| 国产精品香蕉在线观看| 欧美精品免费视频| 国产a精品视频| 九色精品国产蝌蚪| 成人免费在线电影| 国内自拍中文字幕| 97色在线观看| 欧美日韩国产123区| 国产不卡视频一区二区三区| 欧美黑白配在线| 免费黄色在线网站| 日本在线观看a| 999视频在线观看| 亚洲视屏在线播放| 亚洲成人tv网| 国产真实精品久久二三区| youjizz欧美| 日韩在线观看www| 免费国产a级片| 亚洲伊人第一页| 在线电影中文日韩| 欧美午夜精品久久久久久人妖| 久久精品国产亚洲高清剧情介绍| 嫩草国产精品入口| 亚洲精品一线|