国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

清北聯合出品!一篇Survey整明白「Transformer+強化學習」的來龍去脈

人工智能 新聞
Transformer與強化學習結合的綜述!

Transformer模型自發布后,很快就成了自然語言處理和計算機視覺領域在有監督學習設置下的主流神經架構。

雖然Transformer的熱潮已經開始席卷強化學習領域,但由于RL本身的特性,例如需要進行獨特的特征、架構設計等,當前Transformer與強化學習的結合并不順利,其發展路線也缺乏相關論文進行貫穿性地總結。

最近來自清華大學、北京大學、騰訊的研究人員聯手發表了一篇關于Transformer與強化學習結合的調研論文,系統性地回顧了在強化學習中使用Transformer的動機和發展歷程。

圖片

論文鏈接:https://arxiv.org/pdf/2301.03044.pdf

文章中對現有的相關工作成果進行分類,并對每個子領域進行深入討論,最后還總結了該研究方向的未來前景。

Transformer配RL

強化學習(RL)為序列決策(sequential decision-making)提供了一個數學化的形式,可以讓模型自動獲得智能行為。

RL為基于學習的控制提供了一個通用框架,隨著深度神經網絡的引入,深度強化學習(DRL)的通用性在近年來也取得了巨大的進展,但樣本效率問題阻礙了DRL在現實世界中的廣泛應用。

為了解決這個問題,一個有效的機制是在DRL框架中引入inductive bias,其中比較重要的是函數近似器架構的選擇(the choice of function approximator architectures),例如DRL智能體的神經網絡的參數化。

然而,與監督學習(SL)中的架構設計相比,在DRL中選擇架構設計的問題仍然沒有得到充分的探討,大多數現有的關于RL架構的工作是由(半)監督學習社區的成功所激發的。

例如,處理DRL中基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN);處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN)。

近年來,Transformer架構在廣泛的SL任務中徹底改變了學習范式,并表現出比CNN和RNN更優越的性能,比如Transformer架構能夠對較長的依賴關系進行建模,并具有出色的可擴展性。

受SL成功啟發,行業內對在強化學習中應用Transformer的興趣激增,最早可以追溯到2018年的一篇論文,其中自注意機制被用于結構化狀態表示的關系推理。

之后,許多研究人員開始試圖將自注意力應用于表示學習,以提取實體之間的關系,從而可以更好地進行策略學習。

圖片

除了狀態表示學習外,先前的工作還用Transformer來捕捉多步驟的時間依賴性,以處理部分可觀察性問題。

最近,離線RL由于其利用離線大規模數據集的能力而受到關注,相關研究結果也表明,Transformer架構可以直接作為序列決策的模型,并可推廣到多個任務和領域。

這篇調研論文的目的是介紹Transformers in Reinforcement Learning領域(TransformRL)。

圖片

盡管Transformer已經被認為是目前大多數SL研究的基礎模型,但它在RL社區的探索仍然較少。事實上,與SL領域相比,在RL中使用Transformer作為函數近似器需要解決一些不同的問題:

1. RL智能體的訓練數據通常是當前策略的函數,這在Transformer學習的過程中會引起不平穩性(non-stationarity)。

2. 現有的RL算法通常對訓練過程中的設計選擇高度敏感,包括網絡架構和容量等。

3. 基于Transformer的架構經常受到高計算和內存成本的影響,也就是說訓練和推理起來既慢又貴。

比如在一些游戲中的人工智能案例中,樣本生成的效率在很大程度上影響了訓練性能,取決于RL策略網絡和價值網絡的計算成本。

TransformRL的未來

論文中簡要回顧了Transformers for RL的進展情況,其優勢主要包括:

1. Transformers可以作為RL中的一個powerful模塊,比如作為一個表示模塊或世界模型;

2. Transformer可以作為一個序列決策器;

3. Transformer可以提升跨任務和領域的泛化性能。

鑒于Transformer在更廣泛的人工智能社區都表現出強大的性能,研究人員認為將Transformer和RL結合起來是一個有前途的研究方向,下面是一些關于該方向的未來前景和開放性問題。

結合強化學習和(自)監督學習

追溯TransformRL的發展,可以發現其訓練方法同時涵蓋了RL和(自)監督學習。

當作為一個在傳統RL框架下訓練的表示模塊時,Transformer架構的優化通常是不穩定的。當使用Transformer通過序列建模來解決決策問題時,(自)監督學習范式可以消除deadly triad problem。

在(自)監督學習的框架下,策略的性能深受離線數據質量的約束,利用(exploitation)和探索(exploration)之間的明確權衡不復存在,因此在Transformer學習中結合RL和(自)監督學習時,可能會學到更好的策略。

一些工作已經嘗試了監督預訓練和RL參與的微調方案,但在相對固定的策略下,探索會受到限制,這也是有待解決的瓶頸問題之一。

另外,沿著這條路線,用于性能評估的任務也相對簡單,Transfomer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用也值得進一步探索。

此外,研究人員希望未來的工作能夠提供更多的理論和經驗見解,以確定在哪些條件下這種(自)監督學習有望表現良好。

圖片

通過Transformer連接在線和離線學習

踏入離線RL是TransformRL的一個里程碑,但實際上,利用Transformer來捕捉決策序列中的依賴關系并抽象出策略,主要是與所使用的相當多的離線數據的支持分不開的。

然而,對于一些決策任務來說,在實際應用中擺脫在線框架是不可行的。

一方面,在某些任務中獲得專家數據并不那么容易;另一方面,有些環境是開放式的(如Minecraft),這意味著策略必須不斷調整,以處理在線互動過程中未見的任務。

因此,研究人員認為把在線學習和離線學習連接在一起是必要的。

Decision Transformer之后的大多數研究進展都集中在離線學習框架上,一些工作試圖采用離線預訓練和在線微調的范式。然而,在線微調中的分布轉變仍然存在于離線RL算法中,研究人員期望通過對Decision Transformer進行一些特殊設計來解決這個問題。

此外,如何從頭開始訓練一個在線Decision Transformer是一個有趣的開放性問題。

為Decision-making問題量身定做的Transformer結構

目前Decision Transformer系列方法中的Transformer結構主要是vanilla Transformer,它最初是為文本序列設計的,可能具有一些不適合決策問題的性質。

例如,對軌跡序列采用vanilla的自注意力機制是否合適?決策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以區分?

此外,由于在不同的Decision Transformer算法中,將軌跡表示為序列的變體有很多,如何從中選擇,仍缺乏系統的研究。

例如,在行業中部署此類算法時,如何選擇穩健的hindsight信息?

并且vanilla Transformer也是一個計算成本巨大的結構,這使得它在訓練和推理階段都很昂貴,而且內存占用率很高,也限制了它捕獲依賴關系的長度。

為了緩解這些問題,NLP中的一些工作改進了Transformer的結構,但類似的結構是否可以用于決策問題也值得探討。

用Transformer實現更多的通用智能體

論文中對通用智能體(generalist agents)Transformers的回顧已經顯示了Transformers作為一種通用策略的潛力。

事實上,Transformer的設計允許使用類似處理blocks的方式來處理多種模態(如圖像、視頻、文本和語音),并展示了對超大容量網絡和巨大數據集的出色可擴展性。

最近的工作也在訓練能夠執行多模態和跨領域任務的智能體上取得了重大進展。

不過,鑒于這些智能體是在大規模的數據集上進行訓練的,目前還不能確定它們是否只是記住了數據集,以及它們是否能進行有效的泛化。

因此,如何學習到一個能夠在沒有強假設(strong assumption)的情況下對未見過的任務進行泛化的智能體仍然是一個值得研究的問題。

此外,研究人員也很好奇,Transformer是否足夠強大到可以用來學習一個可用于不同任務和場景的通用世界模型。

RL for Transformers

雖然文章中已經討論了RL如何從Transformer模型中受益,但反過來說,用RL來提升Transformer訓練仍然是一個有趣的開放性問題,還沒有被很好地探索過。

可以看到,最近來自人類反饋的強化學習(RLHF)可以學習到一個獎勵模型,并使用RL算法對Transformer進行微調,以使語言模型與人類意圖相一致。

在未來,研究人員認為RL可以成為一個有用的工具,進一步完善Transformer在其他領域的表現。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強化學習訓練

2020-07-10 08:03:35

DNS網絡ARPAne

2022-11-14 10:22:12

訓練強化學習

2023-02-10 13:19:50

2023-02-01 13:07:05

AI

2021-10-31 14:14:33

內存接口協議

2024-08-02 14:50:00

數據AI

2024-08-07 09:02:51

2021-09-10 16:31:56

人工智能機器學習技術

2024-12-09 08:45:00

模型AI

2023-04-06 08:37:24

2022-08-26 14:44:32

強化學習AI

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2023-02-10 09:43:51

架構開發

2022-07-27 07:45:53

二叉樹鏡像函數

2023-12-11 18:23:21

2023-08-14 08:46:54

AI論文

2020-11-12 19:31:41

強化學習人工智能機器學習
點贊
收藏

51CTO技術棧公眾號

久久久极品av| 色综合视频网站| 国产成人久久婷婷精品流白浆| 国产精品欧美三级在线观看| 欧美日韩一区不卡| 无码内射中文字幕岛国片| 1024日韩| 欧美一级高清免费| 18video性欧美19sex高清| 亚洲另类在线视频| 成人在线播放网址| 国产欧美激情| 国产精品av电影| 91久久青草| 欧美精品一区二区三区四区| 在线观看午夜看亚太视频| av激情综合网| 日韩亚洲视频| 99热国内精品永久免费观看| 九九热精品在线| bl在线肉h视频大尺度| 色婷婷亚洲一区二区三区| 久久久噜噜噜www成人网| bbw在线视频| 在线观看精品国产视频| 日韩黄色网址| 国产精品素人一区二区| 久久www视频| 亚洲欧美日韩综合国产aⅴ| 全亚洲最色的网站在线观看| 电影亚洲一区| 亚洲精品自拍第一页| 97caopron在线视频| 亚洲电影第三页| 成年人视频在线免费| 国产乱子轮精品视频| 日韩免费电影一区二区| 亚洲精选成人| 97视频资源在线观看| 国产精品久久久乱弄| 国产精品啪视频| 国产一区二区三区四区五区| 久久夜色精品国产| www.久久草.com| www日韩中文字幕在线看| 欧美国产日韩电影| 亚洲开心激情网| 亚洲欧美韩国| 一本色道久久综合亚洲精品小说 | 欧美啪啪一区| 91在线网站视频| 久久亚洲国产| 91亚洲午夜在线| 国产一区激情| 欧美久久综合性欧美| 青娱乐精品视频| 玖玖精品在线视频| 99久久国产综合精品麻豆| 黄色一级免费大片| 亚洲自拍与偷拍| av中文资源在线| 日韩一本二本av| 亚洲精品一区| 国外成人性视频| 天天操综合520| 国产精品video| 亚洲成人中文| 婷婷视频在线播放| 久久婷婷一区二区三区| 男女激情网站| 欧美三级电影在线看| 色资源二区在线视频| 欧美激情网友自拍| 亚洲人metart人体| 色噜噜狠狠色综合网| 菠萝蜜视频在线观看一区| 成视频在线观看免费观看| 在线日韩av片| 国产高潮在线| 欧美xxxx14xxxxx性爽| 凹凸成人精品亚洲精品密奴| 国产精品区二区三区日本| 国产精品123| 在线观看国产视频一二三| 制服丝袜日韩国产| 日韩成人在线一区| 91久久久久久久久久| 国产一本一道久久香蕉| 日本新janpanese乱熟| 亚洲国产一区二区三区| 中文字幕免费高清电视剧网站在线观看 | 国产精品亚洲人成在99www| 国产高清一区二区三区| 麻豆精品在线播放| 2020中文字字幕在线不卡| 欧美精品aⅴ在线视频| 97色婷婷成人综合在线观看| 99re国产视频| 91在线观看污| 老司机午夜在线视频| 欧美成在线观看| 中文国产一区| a优女a优女片| 精品sm捆绑视频| 欧美老女人另类| 给我免费播放片在线观看| 一本色道综合亚洲| 嫩呦国产一区二区三区av| 丁香五月网久久综合| 国产欧美一区二区三区网站 | 91av国产在线| 三级影片在线观看欧美日韩一区二区| 日本特黄a级片| 亚洲第一av在线| 我不卡手机影院| 国产一区二区三区精彩视频 | 午夜日韩成人影院| 成人av在线天堂| av亚洲产国偷v产偷v自拍| 日韩黄色影院| 91av在线免费观看视频| 美洲天堂一区二卡三卡四卡视频| 特级全黄一级毛片| 久久好看免费视频| 六月婷婷一区| 日韩av成人| 欧美一级淫片丝袜脚交| 成人av网站在线| 在线观看麻豆| 国产精品老牛影院在线观看| 国产成人免费视频网站 | 亚洲人成网站色在线观看| 在线黄色的网站| 久久国产精品99久久久久久丝袜| 亚洲女爱视频在线| 国产人与zoxxxx另类91| 黄色影视在线观看| 日韩丝袜美女视频| 精品91久久久久| 在线电影av| 国产成人精品a视频一区www| 久久久久久久久久久久久女国产乱 | 热久久美女精品天天吊色| jizz一区二区| 裤袜国产欧美精品一区| 免费一区二区三区在在线视频| 精品电影在线观看| 精品国产乱码久久久久久果冻传媒 | 色与欲影视天天看综合网| 国产一区二区在线观看免费| 超免费在线视频| 热舞福利精品大尺度视频| 欧美天天综合网| 精品成人免费| 麻豆av在线免费看| 国产欧美综合精品一区二区| 色欧美乱欧美15图片| 中文字幕一区二区av | 丁香五精品蜜臀久久久久99网站| 国内在线视频| 日本一区二区三区在线视频| 欧美三级中文字幕| 日韩在线免费| 亚洲精品视频一二三区| 性欧美freesex顶级少妇| 污视频在线观看网站| 激情综合网五月激情| 国产精品r级在线| 日韩精品在线观看一区二区| 一区二区动漫| 国产一区二区影视| 国产精品二区在线观看| 欧美视频一二三| 66国产精品| aaa在线观看| 日本一区二区视频| 亚洲福利视频二区| 国产一区二区三区观看| 日韩欧美2区| 韩国一区二区av| 国产91精品网站| 色综合一个色综合亚洲| 最新亚洲激情| 性欧美ⅴideo另类hd| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 日韩av在线网| 成人午夜视频网站| 久9re热视频这里只有精品| 日本桃色视频| 国产日韩欧美一区二区| 亚洲第一视频网站| 久久久久久久久久久电影| 欧美日韩水蜜桃| 乱人伦中文视频在线| 国产欧美综合一区| 欧美激情小视频| 色视频成人在线观看免| 麻豆91精品视频| 国产一区二区三区亚洲| av电影在线观看网址|