国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

擴散模型版CS: GO!世界模型+強化學(xué)習(xí):2小時訓(xùn)練登頂Atari 100K

人工智能 新聞
DIAMOND是一種新型的強化學(xué)習(xí)智能體,在一個由擴散模型構(gòu)建的虛擬世界中進行訓(xùn)練,能夠以更高效率學(xué)習(xí)和掌握各種任務(wù)。在Atari 100k基準(zhǔn)測試中,DIAMOND的平均得分超越了人類玩家,證明了其在模擬復(fù)雜環(huán)境中處理細節(jié)和進行決策的能力。

環(huán)境生成模型(generative models of environments),也可以叫世界模型(world model),在「通用智能體規(guī)劃」和「推理環(huán)境」中的關(guān)鍵組成部分,相比傳統(tǒng)強化學(xué)習(xí)采樣效率更高。

但世界模型主要操作一系列離散潛在變量(discrete latent variables)以模擬環(huán)境動態(tài),但這種壓縮緊湊的離散表征有可能會忽略那些在強化學(xué)習(xí)中很重要的視覺細節(jié)。

日內(nèi)瓦大學(xué)、愛丁堡大學(xué)的研究人員提出了一個在擴散世界模型中訓(xùn)練的強化學(xué)習(xí)智能體DIAMOND(DIffusion As a Model Of eNvironment Dreams),文中分析了使擴散模型適應(yīng)于世界建模(world modeling)所需的設(shè)計要素,并展示了如何通過改善視覺細節(jié)來提高智能體的性能。

圖片

論文鏈接:https://arxiv.org/pdf/2405.12399

代碼鏈接:https://github.com/eloialonso/diamond

項目鏈接:https://diamond-wm.github.io

DIAMOND在Atari 100k基準(zhǔn)測試中達到了1.46的平均人類標(biāo)準(zhǔn)化分?jǐn)?shù)(mean human

normalized score),也是完全在世界模型內(nèi)訓(xùn)練智能體的最佳成績。

圖片

此外,在圖像空間中操作還有一個好處是,擴散世界模型能夠成為環(huán)境的即插即用替代品,更方便地深入分析世界模型和智能體行為。

在項目主頁,研究人員還展示了智能體玩CS: GO的畫面,先收集了87小時人類玩家的視頻;然后用兩階段管道(two-stage pipeline:)以低分辨率執(zhí)行動態(tài)預(yù)測,降低訓(xùn)練成本;將擴散模型從Atari的4.4M參數(shù)擴展(scaling)到 CS: GO 的381M;最后對上采樣器使用隨機采樣(stochastic sampling)來提高視覺生成質(zhì)量。

模型在RTX 4090上訓(xùn)練了12天,并且可以在RTX 3090上以約10 FPS的速度運行。

不過該方法在模擬世界模型時,在部分場景下仍然會失效。

強化學(xué)習(xí)和世界模型

我們可以把環(huán)境看作是一個復(fù)雜的系統(tǒng),智能體在這個系統(tǒng)中通過執(zhí)行動作來探索并接收反饋(獎勵)。

智能體不能直接知道環(huán)境的具體狀態(tài),只能通過圖像觀測來理解環(huán)境,最終的目標(biāo)是教會智能體一個策略,使其能夠根據(jù)所看到的圖像來決定最佳的行動方式,以獲得最大的長期獎勵。

圖片


為此,研究人員構(gòu)建了一個世界模型來模擬環(huán)境的行為,讓智能體在模擬環(huán)境中進行訓(xùn)練,這樣可以更高效地利用數(shù)據(jù),提高學(xué)習(xí)速度。

整個訓(xùn)練過程包括收集真實世界中的數(shù)據(jù),用這些數(shù)據(jù)來訓(xùn)練世界模型,然后讓智能體在世界模型中進行訓(xùn)練,類似于在一個虛擬的環(huán)境中進行練習(xí)一樣,也可以稱之為「想象中的訓(xùn)練」(imagination)。

基于評分的擴散模型

擴散模型是一類受非平衡熱力學(xué)啟發(fā)的生成模型,通過逆轉(zhuǎn)加噪過程來生成樣本。

假設(shè)有一個由連續(xù)時間變量τ索引的擴散過程,其中τ的取值范圍是0到T,然后有一系列的分布,以及邊界條件:在τ=0時,分布是數(shù)據(jù)的真實分布,而在τ=T時,分布是一個易于處理的無結(jié)構(gòu)先驗分布,比如高斯分布。

為了逆轉(zhuǎn)正向的加噪過程,需要定義漂移系數(shù)和擴散系數(shù)的函數(shù),以及估計與過程相關(guān)的未知得分函數(shù);在實踐中,可以使用一個單一的時間依賴得分模型來估計這些得分函數(shù)。

不過在任意時間點估計得分函數(shù)并不簡單,現(xiàn)有的方法使用得分匹配作為目標(biāo),可以在不知道潛在得分函數(shù)的情況下,從數(shù)據(jù)樣本中訓(xùn)練得分模型。

為了獲得邊際分布的樣本,需要模擬從時間0到時間τ的正向過程,然后通過一個高斯擾動核到清潔數(shù)據(jù)樣本,在一步之內(nèi)解析地到達正向過程的任何時間τ;由于核是可微的,得分匹配簡化為一個去噪得分匹配目標(biāo)(denoising score matching),這時目標(biāo)變成了一個簡單的L2重建損失,其中包含了一個時間依賴的重參數(shù)化項。

圖片

圖片

用于世界建模的擴散模型

世界模型需要一個條件生成模型來模擬環(huán)境的動態(tài),即給定過去的狀態(tài)和動作,預(yù)測下一個狀態(tài)的概率分布,可以看作是部分可觀察馬爾可夫決策過程(POMDP),通過在歷史數(shù)據(jù)上訓(xùn)練一個條件生成模型,來預(yù)測環(huán)境的下一個狀態(tài),雖然理論上可以采用任意常微分方程(ODE)或隨機微分方程(SDE)求解器,但在生成新的觀察結(jié)果時,需要在采樣質(zhì)量和計算成本之間做出權(quán)衡。

DIAMOND

DIAMOND模型有兩個重要的參數(shù),一個是漂移系數(shù),決定了系統(tǒng)隨時間變化的趨勢;另一個是擴散系數(shù),決定了噪聲的強度,兩個系數(shù)共同調(diào)節(jié)可以使模型更好地模擬真實世界的變化。

圖片

模型的核心是預(yù)測環(huán)境的下一個狀態(tài),為了訓(xùn)練該網(wǎng)絡(luò),需要提供一系列的數(shù)據(jù),包括過去的觀察結(jié)果和動作,網(wǎng)絡(luò)的目標(biāo)是從當(dāng)前的狀態(tài)和動作中預(yù)測出下一個狀態(tài)。

在訓(xùn)練過程中,會逐漸向數(shù)據(jù)中加入噪聲,模擬環(huán)境的不確定性;然后,網(wǎng)絡(luò)需要學(xué)會從這些帶有噪聲的數(shù)據(jù)中恢復(fù)出原始的、清晰的下一個狀態(tài),整個過程就像是在一堆雜亂無章的信息中找到規(guī)律,預(yù)測出接下來可能發(fā)生的事情。

圖片

為了幫助網(wǎng)絡(luò)更好地學(xué)習(xí)和預(yù)測,DIAMOND使用了一種叫做U-Net的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。這種結(jié)構(gòu)特別適合處理圖像數(shù)據(jù),因為它可以捕捉到圖像中的復(fù)雜模式。我們還使用了一種特殊的技術(shù),叫做自適應(yīng)組歸一化,這有助于網(wǎng)絡(luò)在處理不同噪聲水平的數(shù)據(jù)時保持穩(wěn)定。

最后使用歐拉方法來生成預(yù)測結(jié)果,不需要復(fù)雜的計算,在大多數(shù)情況下都可以提供足夠準(zhǔn)確的預(yù)測。

在想象中強化學(xué)習(xí)

比如說,我們正在訓(xùn)練一個智能體如何在一個虛擬世界中行動:智能體需要「獎勵模型」告訴它做得好不好,需要「終止模型」告訴他什么時候游戲結(jié)束。

智能體有兩個部分:一個部分告訴它該怎么做(actor),用REINFORCE方法來訓(xùn)練;另一個部分告訴它做得怎么樣(critic ),用λ-回報的貝爾曼誤差的方法來訓(xùn)練。

圖片

讓智能體在一個完全由計算機生成的世界中進行訓(xùn)練,這樣就可以在不真實接觸環(huán)境的情況下學(xué)習(xí)和成長。

只需要在真實環(huán)境中收集一些數(shù)據(jù);每次收集完數(shù)據(jù)后,都會更新智能體的虛擬世界,然后讓模型在這個更新后的世界中繼續(xù)訓(xùn)練;整個過程不斷重復(fù),直到智能體學(xué)會如何在虛擬世界中更好地行動。

Atari 100k基準(zhǔn)結(jié)果

Atari 100k包括了26個不同的電子游戲,每個游戲都要求模型具有不同的能力。

在測試中,智能體在開始真正玩游戲之前,只能在游戲中嘗試100,000次動作,大概相當(dāng)于人類玩2個小時的游戲時間,而其他無限嘗試的游戲智能體通常會嘗試5億次動作,多了500倍。

為了更容易與人類玩家的表現(xiàn)進行比較,使用人類歸一化得分(HNS)指標(biāo),結(jié)果顯示,DIAMOND的表現(xiàn)非常出色,在11個游戲中超過了人類玩家的表現(xiàn),基本實現(xiàn)了超越人類的水平,平均得分為1.46,在所有世界模型訓(xùn)練的智能體中是最高的。

圖片

DIAMOND在某些游戲中的表現(xiàn)尤其好,要求智能體能夠捕捉到細節(jié),比如《阿斯特里克斯》、《打磚塊》和《公路賽跑者》。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-12 08:59:02

強化學(xué)習(xí)系統(tǒng)人工智能擴散模型

2024-01-26 08:31:49

2022-09-04 14:38:00

世界模型建模IRIS

2025-12-05 08:46:00

2024-05-24 08:42:29

智能體訓(xùn)練

2023-08-28 06:52:29

2022-06-25 21:38:36

AI模型

2025-01-14 13:20:56

2025-10-11 09:23:28

RLPT強化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2017-08-17 09:15:23

強化學(xué)習(xí)KerasOpenAI

2023-11-17 08:46:26

2023-04-06 16:29:18

模型AI

2022-08-26 14:44:32

強化學(xué)習(xí)AI

2022-12-01 08:00:00

2024-01-30 09:00:28

框架BMRL模型

2025-06-13 09:10:00

2024-02-19 14:06:00

AI數(shù)據(jù)

2025-06-11 08:45:00

強化學(xué)習(xí)AI模型

2025-06-05 08:40:00

2024-10-29 15:20:00

強化學(xué)習(xí)模型
點贊
收藏

51CTO技術(shù)棧公眾號

国产黄色一级网站| 男女爽爽爽视频| 免费观看成人性生生活片| 成人手机在线视频| 国产欧美精品在线| 免费观看成人性生生活片 | 特级黄色录像片| 欧美激情电影| 欧美成人午夜激情| 精品毛片网大全| 午夜免费福利小电影| 一二三区精品| 91精品视频在线看| 视频精品一区| 色七七影院综合| 欧亚在线中文字幕免费| 91黄色小视频| 在线播放你懂的| 日韩毛片视频在线看| av观看免费在线| 不卡一区二区中文字幕| 2019日韩中文字幕mv| 蜜臀av性久久久久蜜臀aⅴ四虎| 国产精品一区二区免费看| 大胆日韩av| 成人免费视频网站入口| 夜久久久久久| 亚洲国产一区在线| 成人午夜又粗又硬又大| 成人免费观看cn| 99久久国产综合精品麻豆| 成人免费aaa| 国产精品久久久久久久久晋中 | 成人av高清在线| 玩弄中年熟妇正在播放| 91麻豆免费视频| 又黄又爽又色视频| 欧美视频免费在线| 黄色在线看片| 日韩中文字幕网站| 香蕉久久精品日日躁夜夜躁| 91丝袜脚交足在线播放| 狂野欧美一区| xxxxxx在线观看| 国产精品国产三级国产a| 欧美偷拍视频| 中文字幕亚洲一区二区三区| 伊色综合久久之综合久久| 国产精品一区二区久久久久| 亚洲国产精品91| 日韩一二区视频| 国产精品免费网站在线观看| 四虎在线观看| xx视频.9999.com| 99亚洲精品| 午夜精品久久久久久久无码| 97xxxxx| 激情文学一区| 蜜桃狠狠色伊人亚洲综合网站| 日韩av在线播放中文字幕| 各处沟厕大尺度偷拍女厕嘘嘘| 亚洲桃色在线一区| 1区2区3区在线| 国产一区二区在线免费| 国产.欧美.日韩| 高清毛片在线看| 高清一区二区三区四区五区| 国产精品视频| 区一区二日本| 超碰91人人草人人干| 久久精品理论片| 91免费在线| 亚洲综合第一页| 国产精品嫩草99a| 日韩高清在线| 亚洲午夜精品福利| 欧美日韩精品免费| 乱亲女h秽乱长久久久| 草草久久久无码国产专区| 亚洲美女av黄| 狠狠狠色丁香婷婷综合激情| 91se在线| 国产亚洲二区| 欧美精品xxxxbbbb| 亚洲精品影院在线观看| 国产综合在线观看| 国产精品久久久久久久久久免费 | 亚洲精品免费在线观看| 亚洲精品亚洲人成在线| 2020中文字幕在线| 91精品国产自产91精品| 中文字幕一区二区三区av| 国偷自产视频一区二区久| 国语对白在线视频| 91免费看片网站| 精品毛片乱码1区2区3区| 国产寡妇亲子伦一区二区| 国产精品久久乐| 污网站在线观看免费| 国产精品嫩草视频| 欧美一区二区三区在线电影 | 欧洲成人性视频| 天天爽夜夜爽夜夜爽精品视频| 亚洲草久电影| 懂色av一区| 黄色三级视频片| 91免费精品国偷自产在线| 亚洲精品美女久久| 国产精品欧美经典| 亚洲神马久久| www国产精品| 黄色av网站在线免费观看| 九一免费在线观看| 国产精品自产拍在线观看| 日韩av一卡二卡| 五月激情丁香一区二区三区| 国产一区二区三区四区五区入口 | 台湾天天综合人成在线| 超碰在线免费| 99热成人精品热久久66| 精品欧美国产| 91成人伦理在线电影| 欧美成年人视频网站欧美| 欧美性大战久久久| 国产喂奶挤奶一区二区三区| 亚洲免费观看| 香港欧美日韩三级黄色一级电影网站| 国产不卡网站| 在线视频观看国产| 天天在线女人的天堂视频| 国产bdsm| 久久国产亚洲精品无码| 四虎免费在线观看视频| 欧美国产综合视频| 不卡视频一区| 91精品国产综合久久男男 | 二区三区在线观看| 国产综合视频一区二区三区免费| 又黄又免费的网站| 精品久久久久久无码国产| 欧美精品久久久久久久自慰 | av亚洲一区二区三区| 欧洲黄色一区| 免费污视频在线观看| 麻豆mv在线观看| 性欧美18xxxhd| 综合久久2019| 最新中文字幕在线播放| 香蕉伊大人中文在线观看| 羞羞影院欧美| 国产aa精品| 韩国女主播一区二区三区| 影音先锋欧美激情| 日韩精品免费一区二区在线观看 | 精品一区二区三区av| 国产精品小仙女| 成人午夜又粗又硬又大| 久久久精品影视| 一区二区在线观看免费视频播放| 夜夜精品浪潮av一区二区三区| 亚洲国产你懂的| 欧美乱熟臀69xxxxxx| 亚洲视频欧美视频| 国产91精品久久久久久久| 91黄色精品| 91视频 - 88av| 国产午夜电影| 在线heyzo| 欧美电影在线观看免费| 午夜亚洲激情| 中文字幕不卡三区| 欧美男男青年gay1069videost| 日韩欧美国产一区二区三区| 久久精品91久久久久久再现| 国产精品狠色婷| 91视频成人免费| 亚洲高清国产精品| 91精品店在线| 一区二区三区四区电影| av一区二区三区黑人| 色老汉一区二区三区| 少妇高潮久久久久久潘金莲| 91成人理论电影| 狠狠躁狠狠躁视频专区| 性爱视频在线播放| 亚洲精品一二三区区别| 中文字幕第一区综合| 欧美精品乱码久久久久久| 欧美一区在线直播| 凹凸日日摸日日碰夜夜爽1| 91福利国产在线观看菠萝蜜| 免费看成人哺乳视频网站| 99九九99九九九视频精品| 欧美成人video| 欧美日韩一区二区三区免费| 人操人视频在线观看| 久久一级电影| 亚洲高清一区二区三区| 国产精品电影在线观看| 制服黑丝国产在线|