国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

擴散模型如何幫助創建更好的強化學習系統 原創

發布于 2024-4-12 08:56
瀏覽
0收藏

擴散模型以其令人印象深刻的生成高質量圖像的能力而聞名,它們是流行的文本到圖像模型(例如DALL-E、Stable Diffusion和Midjourney)中使用的主要架構。

然而,擴散模型不只是用于生成圖像。Meta公司、普林斯頓大學和德克薩斯大學奧斯汀分校的研究人員最近聯合發表的一篇研究報告表明,擴散模型可以幫助創建更好的強化學習系統。

該報告引入了一種使用基于擴散的世界模型來訓練強化學習代理的技術。擴散世界模型(DWM)通過預測未來多個步驟的環境,增強了當前基于模型的強化學習系統。

無模型的強化學習vs基于模型的強化學習

無模型的強化學習算法直接從與環境的交互中學習策略或價值函數,而無需預測未來環境。與其相反,基于模型的強化學習算法通過世界模型來模擬它們的環境。這些模型使他們能夠預測他們的行為將如何影響他們的環境,并相應地調整政策。

基于模型的強化學習的一個關鍵優勢是它需要更少的來自真實環境的數據樣本。這對于自動駕駛汽車和機器人等應用尤其有用。在這些應用中,從現實世界收集數據可能成本高昂或者存在風險。

然而,基于模型的強化學習高度依賴于世界模型的準確性。在實踐中,世界模型中的不準確性導致基于模型的強化學習系統比無模型的強化學習表現得更差。

傳統的世界模型使用單步動態(one-step dynamics)模式,這意味著它們只能根據當前狀態和動作預測獎勵和下一個狀態。當規劃未來的多個步驟時,強化學習系統使用自己的輸出遞歸地調用模型。這種方法帶來的問題是,小誤差可能在多個步驟中疊加,使長期預測變得不可靠和不準確。

擴散世界模型(DWM)的前提是學會一次預測未來的多個步驟。如果做得正確,這種方法可以減少長期預測中的錯誤,并提高基于模型的強化學習算法的性能。

擴散世界模型的工作原理

擴散世界模型的工作原理很簡單:它們通過反轉一個逐漸向數據添加噪聲的過程來學習生成數據。例如,當訓練生成圖像時,擴散世界模型會逐漸向圖像添加噪聲層,然后嘗試反轉過程并預測原始圖像。通過重復這個過程并添加更多的噪聲層,它學會了從純噪聲中生成高質量的圖像。條件擴散模型通過將模型的輸出條件轉化為特定輸入(例如圖像附帶的字幕)來添加一層控制。這使開發人員能夠為這些模型提供文本描述并接收相應的圖像。

擴散模型如何幫助創建更好的強化學習系統-AI.x社區

但是,雖然擴散模型以其生成高質量圖像的能力而聞名,但它們也可以應用于其他數據類型。

擴散世界模型(DWM)使用相同的原理來預測強化學習系統的長期結果。擴散世界模型(DWM)以當前狀態、操作和預期回報為條件,而不是文本描述。它的輸出是多個步驟的狀態和對未來的獎勵。

擴散世界模型(DWM)框架有兩個訓練階段。在第一階段,擴散模型在從環境中收集的一系列軌跡上進行訓練。它從一個強大的世界模型中學習,可以一次預測多個步驟,使其在長期模擬中比其他基于模型的方法更穩定。

在第二階段,使用Actor-Critic 算法和擴散世界模型訓練離線強化學習策略。使用離線強化學習消除了訓練過程中在線交互的需求,從而提高了速度,降低了成本和風險。

對于每個步驟,代理使用擴散世界模型(DWM)來生成未來的軌跡,并模擬其動作的回報。研究人員稱之為“擴散模型價值擴展”(Diffusion MVE)。雖然強化學習系統在訓練期間使用擴散世界模型(DWM),但生成的策略是無模型的,這具有更快推理的好處。

研究人員寫道:“擴散模型價值擴展(Diffusion MVE)可以解釋為通過生成建模對離線強化學習進行的值正則化,或者可以解釋為使用合成數據進行離線Q學習的一種方法。”

在更高的層面,擴散世界模型(DWM)背后的主要思想是預測未來世界的多個狀態。因此,可以用另一個序列模型替換擴散模型。研究人員也對Transformer模型進行了實驗,但發現擴散世界模型(DWM)更有效。

運行擴散世界模型(DWM)

為了測試擴散世界模型(DWM)的有效性,研究人員將其與基于模型的強化學習系統和無模型的強化學習系統進行了比較。他們從D4RL數據集中試驗了三種不同的算法和九種運動任務。

結果表明,擴散世界模型(DWM)比單步世界模型顯著提高了44%的性能。當單步世界模型應用于無模型強化學習算法時,它通常會降低性能。然而,研究人員發現,當與擴散世界模型(DWM)結合使用時,無模型強化系統的表現優于原始版本。

研究人員寫道:“這要歸功于擴散模型的強大表現力和對整個序列的一次性預測,這規避了傳統的單步動態模型在多個步驟推出時的復合誤差問題。我們的方法實現了最先進的(SOTA)性能,消除了基于模型算法和無模型算法之間的差距。”

擴散世界模型(DWM)是在非生成任務中使用生成模型的更廣泛趨勢的一部分。在過去的一年,由于生成式人工智能模型的進步,機器人研究取得了飛躍式的進展。大型語言模型正在幫助彌合自然語言命令和機器人運動命令之間的差距。Transformers還幫助研究人員將從不同形態和設置中收集的數據整合在一起,并訓練可以推廣到不同機器人和任務的模型。

原文標題:Diffusion models are now turbocharging reinforcement learning systems,作者:Ben Dickson。

鏈接:?https://bdtechtalks.com/2024/03/04/diffusion-world-model/?。

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
亚洲一区二区不卡免费| 免费精品视频在线| 91精品中文字幕一区二区三区| 日韩精品免费一区| 亚洲欧美日本伦理| 一本大道亚洲视频| av在线中文| 不卡一区在线观看| 国产精品免费视频xxxx| 91精品xxx在线观看| 欧美日韩第一区日日骚| 色偷偷亚洲第一综合| 奇米影视一区二区三区| 成人欧美在线观看| 亚洲激情77| 久久中文精品视频| 2020国产在线| 欧美视频第二页| 最新地址在线观看| 亚洲免费色视频| 日本中文字幕片| 蜜桃av一区二区三区电影| 国产精品裸体一区二区三区| 欧美午夜精品一区二区三区电影| 久久精品色欧美aⅴ一区二区| 成人高潮aa毛片免费| 欧美日韩一区二区三区在线| 日本中文字幕视频在线| 国产日产精品_国产精品毛片| 成人免费毛片嘿嘿连载视频| 91精品国产综合久久香蕉922| 国产毛片精品久久| 久久99精品网久久| 国产伦精品一区二区三区四区免费 | 色一情一伦一子一伦一区| 午夜精品在线免费观看| 深夜福利视频在线观看| 丁香婷婷久久| a视频在线免费看| 色哟哟欧美精品| 青青青国内视频在线观看软件| 中文字幕精品三区| 成人免费视频网站| 免费看成人人体视频| 在线视频一区二区| 污视频网站在线免费| 欧美日韩不卡合集视频| 黄色av网址在线播放| 成人免费视频播放| www.亚洲成人网| 国产成人鲁色资源国产91色综| 国产一区二区片| 91伊人久久大香线蕉| 热久久精品国产| 中文字幕高清不卡| 日韩黄色网址| 91官网在线免费观看| www久久日com| 精品精品国产高清一毛片一天堂| 第一福利在线视频| 亚洲香蕉成人av网站在线观看| 久久av日韩| 欧美激情网友自拍| jizzjizz欧美69巨大| http;//www.99re视频| 亚洲高清网站| 伊人色综合影院| 91视频国产资源| 国产高潮av| 精品久久久久久中文字幕一区奶水 | 亚洲国产日韩欧美在线图片| 亚洲美女炮图| 久久久国产在线视频| 亚洲日本三级| 成人漫画网站免费| 欧美高清在线| 精品网站999| 91在线电影| 亚洲黄色av女优在线观看| 一区二区三区短视频| 在线观看18视频网站| 国产一区二区三区av电影| 日韩一级片免费视频| 亚洲欧洲成人av每日更新| 中文在线a√在线8| 亚洲第一区第二区| 免费日韩一区二区三区| 成人午夜av电影| 日韩中文字在线| 国产传媒欧美日韩成人精品大片| 亚洲一区二区三区久久| 寂寞少妇一区二区三区| 男人艹女人在线观看| 欧美三级电影在线看| 国产福利91精品一区二区| 国产精品香蕉在线观看| 久久一区欧美| 九色成人在线| 欧美日韩国产片| www 久久久| 国产日韩一区二区| 久久久91精品国产一区二区精品 | 大菠萝精品导航| 久久久久久午夜| 久久一二三四| 成人毛片免费在线观看| 亚洲精品乱码久久久久久金桔影视| 欧美人妖在线观看| 国产精品啪啪啪视频| 日韩欧美中文字幕在线观看| 国产一区二区精品调教| 91亚色免费| 青青青国产精品| 伦xxxx在线| 91精品国产自产在线| 永久www成人看片| 精品久久99ma| 福利片一区二区| 亚洲成年人专区| 欧美日韩亚洲系列| 99视频有精品高清视频| 另类视频在线观看+1080p| 国产精品欧美久久久久无广告 | 国产精品第七十二页| 精品一二三四区| 男女午夜刺激视频| 国产自产在线视频一区| 久久精品亚洲精品国产欧美| 美女胸又www又黄的网站| 欧美日韩美女在线观看| 蜜桃视频在线观看播放| 99国产高清| 国产欧美视频在线观看| 黄色成人美女网站| 一区二区三区四区在线免费观看 | 欧美最猛黑人xxxx黑人猛叫黄| 欧美日韩黄色一区二区| 亚洲欧美一区二区三区久本道91| 99久久久精品| 国产一区二区三区黄视频| 日日夜夜免费精品| 亚洲精品字幕| 蜜桃一区二区三区四区| 国产欧美日韩亚洲一区二区三区| 亚洲淫成人影院| 欧美黑人xxxxx| 精品三级在线看| 国产在线精品一区二区| 全球最大av网站久久| 亚洲人成77777| 在线亚洲免费视频| 色综合久久网| 青草在线视频在线观看| 国语精品中文字幕| 欧美日韩在线不卡| 亚洲国产视频二区| 那种视频在线观看| 高清亚洲成在人网站天堂| 精品亚洲国产成人av制服丝袜| 中文字幕中文字幕在线十八区| 最新中文字幕久久| 精品国产免费一区二区三区香蕉| 欧美精品一卡两卡| 激情懂色av一区av二区av| 久久久国产精品一区二区中文| 欧美激情综合色综合啪啪| 在线视频国产福利| 色欧美片视频在线观看在线视频| 日韩激情网站| 轻点好疼好大好爽视频| 国产亚洲精品91在线| 国产一区亚洲一区| 天天免费亚洲黑人免费| 国产精品亚洲天堂| 伊人伊成久久人综合网站| 成人精品小蝌蚪| 国产精品视频一区二区三区综合| 日本精品一区在线观看| 久久成年人视频| 亚洲欧洲性图库| 欧美黑人巨大videos精品| 97影院理论午夜| 国产精品福利网站| 欧美不卡高清一区二区三区| 日韩极品在线| 精品三级av在线导航| 国产一区日韩欧美| 性网站在线播放| 久久99国产精品成人| 亚洲日本在线视频观看| 91视频综合| 成人国产精品免费观看动漫| 亚洲青青青在线视频| 国产精品一区二区三区成人| 亚洲少妇30p| 婷婷成人av| 国产精品一区二区男女羞羞无遮挡| 欧美激情在线观看视频免费| 国产乱码精品一区二区三区av| 欧美人牲a欧美精品|