国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

狂攬4k star,AI通過強化學習玩寶可夢,兩萬場后成功拿下

人工智能 新聞
一開始,AI 沒有任何的知識和經驗,只能夠隨機按下按鈕。但在五年的模擬游戲時間里,它在經歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,并擊敗了健身房的領導者。

圖片

是不是說起「口袋妖怪」,你就不困了?

「口袋妖怪」是「寶可夢」的非官方譯名。從 1996 年至今,它可以被分為數個世代,成為很多玩家心中的經典之作。游戲畫風簡單,但是身為策略游戲,其中包含的角色、屬性、戰術、體系等讓這個游戲入門容易精通難。

如果訓練 AI 來玩寶可夢,你覺得它的實力如何?

推特用戶 @computerender 用強化學習訓練 AI 玩起了寶可夢。他也通過視頻記錄了這一過程,不僅生動地展示了訓練過程,還詳盡地介紹了其中的方法。

圖片


  • 項目地址:https://github.com/PWhiddy/PokemonRedExperiments
  • 視頻地址:https://www.youtube.com/watch?v=DcYLT37ImBY

當你打開視頻,就能觀看兩萬場 AI 玩的《寶可夢?紅》。一開始,AI 沒有任何的知識和經驗,只能夠隨機按下按鈕。但在五年的模擬游戲時間里,它在經歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,并擊敗了健身房的領導者。

那么這是怎么做到的呢?

最基礎的目標是讓 AI 去探索地圖。作者所使用的方法是在 AI 到達新位置時給予獎勵。

圖片

作者記錄 AI 在玩游戲時看到的每個屏幕并將當前屏幕與記錄中的所有屏幕進行比較,看看是否有接近的匹配。如果沒有找到匹配,這意味著 AI 發現了一些新東西。在此情況下,作者將給它一個獎勵,并將新屏幕添加到記錄中。獨特屏幕帶來的獎勵可以鼓勵它繼續尋找游戲的新部分。

圖片

經過幾次迭代之后,AI 能更快的走出初始房間。但在這過程中,作者發現了隨著探索越來越多,AI 卻會被「困」在某處。這是因為該場景中有草、水、隨意走動的 NPC,這會更容易觸發新場景產生。作者通過改變畫面差異的像素閾值來進行改進。

除此之外,AI 還遇到了戰斗畫面大致相同,無法得到獎勵而逃離的行為。但是不戰斗,就無法前進。最后,作者通過增加額外獎勵來保持 AI 的前進。

圖片

戰斗畫面相似性較高

圖片

增加額外關卡獎勵

當然,AI 在這個過程中遇到的問題遠多于此。

當寶可夢戰斗的時間很長,其默認行動被耗盡時,它似乎會卡住,在多次訓練迭代之后,才有了實質性的改進。作者發現,在看到一只鴿子第一次參與進來后,它終于知道當一個移動耗盡時該做什么,并能夠切換到另一個替代移動。

圖片

就當一切順利時,作者發現了一個關鍵問題。AI 會直接投入戰斗,即使是那些它無法獲勝的戰斗。并且,它從不去寶可夢中心治療,這意味著當它輸了,它會一直回到游戲的開始。

圖片

作者試圖使用輸掉戰斗就減去獎勵來改進,但是沒有效果。當 AI 即將失敗時,它沒有避免艱難的戰斗,而是拒絕按下按鈕繼續無限期地拖延。這在技術上滿足了目標,但不是作者想要的。

作者在細致地觀察后發現,在一些罕見的情況下會造成巨大的獎勵減扣。一直以來,AI 都會在一場游戲中扣除比預期多 10 倍的獎勵。作者在回顧時發現,AI 寶可夢中心,在角落里的電腦前徘徊。登錄并漫無目的地按了一會兒按鈕后,它將一只寶可夢存入了系統,隨即大量獎勵就流失了。這是因為獎勵是根據寶可夢的等級總和分配的。因此,存入一只 13 級的寶可夢就會立即損失 13 分。這會發出強烈的負面信號,給 AI 造成類似創傷的體驗。AI 不像人類那樣有情感,但一個具有極端獎勵價值的事件仍會對它的行為產生持久的影響。在這種情況下,僅僅失去一次寶可夢就足以讓 AI 對整個寶可夢中心形成負面聯想,從而在今后的游戲中完全避開它。為了解決這個問題,作者再次修改獎勵函數,只有當等級增加時才給予獎勵。這似乎解決了問題。重新啟動訓練后,AI 開始訪問寶可夢中心。

圖片

當它到達了寶可夢中心內的月亮山入口。在這里,一個男人會以 500 元的價格賣給你一條魔法鯉魚。魔法鯉魚在短期內一點幫助都沒有,所以你可能會認為 AI 不會對此感興趣。然而,購買它是獲得 5 級的超級簡單方法。所以 AI 每次都買。在所有的游戲中,它總共購買了超過 10000 個魔法碳水化合物。

圖片

作者將 AI 行為與人類類比

作者還分析了 AI 的行動路線,它似乎更喜歡在地圖的幾乎所有邊緣逆時針行走。這意味著,當站在右邊的邊緣時,它更喜歡往上走,藍色顯示的就是這種情況。當上方有邊緣時,它喜歡往左走,顯示為粉紅色。當左邊有邊緣時,它喜歡向下走,用橙色表示。而當下面有一條邊時,它更喜歡向右走,顯示為綠色。

圖片

作者在視頻中表明,機器學習的基本挑戰是在不明確告訴程序如何做的情況下讓它做一些事情。這意味著,如果你的模型沒有按照你預期的方式運行,你必須弄清楚如何通過學習算法或在線訓練數據間接地改進它。強化學習增加了一層間接性。在此基礎上,輸入模型的訓練數據不再是靜止的、受你控制的,而是模型在早期時間點行為的產物。這種反饋循環會導致無法預測的突發行為。 

圖片

在沒有機構規模的資源時,作者建議你可以這么做:

  • 將問題簡化,以避免工具、資源的限制。
  • 接下來,在合理的時間和成本內迭代實驗的設置非常重要。
  • 然后需要仔細考慮 AI 如何與環境交互以及獎勵函數如何設計。在視頻中,作者對他所用到的獎勵函數已經有所介紹,但是受制于篇幅,并沒有介紹全部。它使用到了至關重要的七個函數,實際上還有更多的并沒有測試或是最終使用。
  • 通過可視化的方法了解 AI 的行為。

圖片

作者說道,在未來還可能應用遷移學習的方法。即在一個大型的廣泛數據集上預先訓練一個模型,然后可以非常有效地利用它來完成新任務。在過去,這已經給計算機視覺和自然語言處理領域帶來了革命性的變化。在將其應用于 RL 方面,已經有一些有趣的早期工作,但尚未真正落地。這是由于這些類型的任務缺乏大型的多樣化數據集。

圖片

在視頻最后,作者還介紹了項目的更多操作細節。

更多詳細內容,請觀看原視頻。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-30 16:37:29

2023-04-23 10:12:14

算法強化學習

2024-08-07 09:20:00

2025-04-01 09:10:00

2025-08-01 09:05:00

2023-09-10 10:40:08

2025-07-24 09:05:00

2014-05-15 15:36:55

AMD

2022-11-02 14:02:02

強化學習訓練

2024-12-09 08:45:00

模型AI

2024-07-26 09:33:22

2017-03-28 10:15:07

2018-04-21 06:41:39

Q-learning算法函數

2025-07-07 13:50:56

AI編程算法

2023-07-02 14:47:26

AI速通效率

2023-06-20 16:05:58

AI代碼

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-01-14 13:20:56

點贊
收藏

51CTO技術棧公眾號

亚洲午夜成aⅴ人片| 性欧美办公室18xxxxhd| 国产亚洲精品久久久久久| 久久综合福利| 亚洲www色| 天天av天天翘天天综合网| 国产日韩欧美久久| 欧美变态挠脚心| 午夜欧美大尺度福利影院在线看| 欧美精品久久久久久久久25p| 国产jizzjizz一区二区| 少妇特黄a一区二区三区| 成人va天堂| 日韩成人xxxx| 黄页在线观看免费| 欧美一区二区三区成人| 永久免费网站在线| 国产一区二区三区免费看| 国产精品久久久久久久久婷婷| 国产免费av国片精品草莓男男| 人妻精品无码一区二区三区| 美女国产一区二区| 久久五月天色综合| 国产精品久久一区二区三区| 欧美成人嫩草网站| 999视频在线免费观看| 综合激情视频| 欧美日韩在线观看一区| 欧美精品高清| 亚洲图片欧美日产| 日韩视频一区二区三区四区| 九九精品在线视频| 88久久精品| 欧美中在线观看| 色综合久久网| 国产午夜精品麻豆| 国产精品xxx| 日本韩国在线不卡| 欧美国产综合| 日产精品一线二线三线芒果| 精品精品精品| 亚洲国产精品久久精品怡红院| 男女在线观看视频| 亚洲少妇最新在线视频| 95影院理论片在线观看| 成人高清免费观看| 天堂网在线免费观看| 亚洲国产视频a| 亚洲制服中文| 久久久五月婷婷| 男人午夜天堂| 国产高清无密码一区二区三区| 国产精品视频久| 九七影院97影院理论片久久| 久久不射热爱视频精品| 亚洲电影一级片| 国产美女在线精品免费观看| y111111国产精品久久久| 国产成人精品网站| 色是在线视频| 欧美精选一区二区| 欧美久久天堂| 午夜精品视频在线| 国产美女一区| 国产98色在线| 亚洲午夜视频| 丰满人妻中伦妇伦精品app| 亚洲国产欧美另类丝袜| 成人软件在线观看| 午夜精品久久久久久久99热浪潮| 国产免费av一区二区三区| 日韩最新免费不卡| 国产成人一区二区三区影院| 久久久久久九九| 亚洲成人三区| 91精品国产乱码久久久久久久久 | jlzzjlzz亚洲女人| 国精产品一区一区三区有限在线| 全亚洲第一av番号网站| 欧美一级视频一区二区| 日韩综合一区二区| 写真福利片hd在线观看| 亚洲国产高潮在线观看| 老司机在线看片网av| 欧美三级日韩三级| 欧美aaaaaa| 国产经典一区二区三区| 欧美日韩伊人| 国产精品美女午夜av| 日本欧美大码aⅴ在线播放| 国产精品久久久久免费a∨大胸| 国产最新精品免费| 每日更新av在线播放| 亚洲欧美在线另类| 日韩不卡免费高清视频| 国产成人亚洲欧美| 国产精品乱人伦中文| 啊啊啊一区二区| 欧美体内she精视频| 欧美大胆视频| 日韩美女爱爱视频| 久久奇米777| 亚洲欧美成人影院| 成人免费看片视频| 亚洲欧美日韩久久| 欧美啪啪网站| 亚洲人一区二区| 欧美日韩一区二区三区在线| 丝袜美腿一区二区三区动态图| japanese在线播放| 欧美色国产精品| 欧美影视一区| 动漫成人在线| 97久久精品人搡人人玩| 日韩国产高清在线| 日本中文字幕在线看| 国产精品综合久久久| 亚洲欧洲日产国码二区| 美女久久精品| 91免费国产精品| 91小视频在线| 99久久国产免费免费| 亚洲欧洲制服丝袜| 24小时成人在线视频| 一区二区三区偷拍| 欧美色精品天天在线观看视频| 久久精品不卡| 在线看片黄色| 欧美激情精品久久久久久大尺度| 成人中文在线| 天天碰免费视频| 亚洲色图欧洲色图婷婷| 亚洲伊人伊成久久人综合网| 日本网站免费在线观看| 一本色道久久综合亚洲精品小说 | 成人亲热视频网站| 中文字幕一区二区三区av| 午夜不卡av在线| 亚洲欧美日本国产| 欧美特级aaa| 国产91免费观看| 婷婷久久综合九色综合绿巨人| 93在线视频精品免费观看| 国产福利第一视频在线播放| 国产精品一区二区三区精品| 欧美夫妻性生活| 青青草原综合久久大伊人精品优势| 3344国产永久在线观看视频| 免费国产a级片| 青青草精品毛片| 色噜噜夜夜夜综合网| 国产精品迅雷| 国产一区二区三区乱码| 美日韩在线视频| 亚洲国产日本| 网上成人av| 国产精品久久久久久久久久免费 | 美女诱惑一区二区| 91亚洲国产成人精品性色| 一区二区三区四区在线播放| 91麻豆精品国产91久久久平台 | av成人毛片| 美女久久久久久| 成人免费在线视频播放| 日韩最新中文字幕电影免费看| 成人av资源站| 国产日产一区 | 另类综合日韩欧美亚洲| 日韩成人综合网站| 秋霞在线观看av| 欧美性天天影院| 欧美成人精品xxx| 欧美性猛交xxxx乱大交3| 99热国产在线中文| 免费视频爱爱太爽了| 日本免费一区二区三区视频观看 | 一区二区欧美久久| 亚洲色图在线视频| 99riav1国产精品视频| 青青在线精品| 视频一区二区在线播放| 中文字幕日韩精品一区二区| 97香蕉久久超级碰碰高清版| 制服丝袜激情欧洲亚洲| 99久久国产综合色|国产精品| 欧美13一16娇小xxxx| 国产精品美女免费看| 精品美女一区二区| 日韩久久一区二区| 精品亚洲国产成人av制服丝袜| 日韩中出av| 亚洲深夜视频| 午夜国产在线| 青青青免费在线| 国产成人成网站在线播放青青| www高清在线视频日韩欧美| 91国偷自产一区二区三区成为亚洲经典| 成人网在线免费视频| 欧美日韩ab| 久久久久久毛片免费看|