国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

邊做邊思考,谷歌大腦提出并發RL算法,機械臂抓取速度提高一倍

新聞 人工智能 算法
RL 算法通常假設,在獲取觀測值、計算動作并執行期間環境狀態不發生變化。這一假設在仿真環境中很容易實現,然而在真實機器人控制當中并不成立,很可能導致控制策略運行緩慢甚至失效。

 RL 算法通常假設,在獲取觀測值、計算動作并執行期間環境狀態不發生變化。這一假設在仿真環境中很容易實現,然而在真實機器人控制當中并不成立,很可能導致控制策略運行緩慢甚至失效。為緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實驗室共同提出一種并發 RL 算法,使機器人能夠像人一樣「邊做邊思考」。目前,該論文已被 ICLR 2020 接收。

該研究在如下情況中研究強化學習:在受控系統隨著時間演變的過程中同時對動作進行采樣。換句話說,所研究的機器人必須在執行著上一個動作的同時考慮下一個動作。就如同人或動物一樣,機器人必須同時思考及行動,在上一個動作完成之前決定下一個動作。

為了開發用于此類并發性控制問題的算法框架,研究者從連續時間的貝爾曼方程開始,隨后以考慮系統延遲的方式進行離散化。通過對現有基于價值(value-based)的深度強化學習算法進行簡單的架構擴展,該團隊提出了一類新型近似動態規劃方法,并在模擬基準任務和大規模機器人抓取任務上進行了評估(機器人必須「邊走邊思考」)。

以下分別為該方法在仿真與真實機器人上的運行效果:

論文地址:https://arxiv.org/abs/2004.06089

項目網頁:https://sites.google.com/view/thinkingwhilemoving

并發動作環境

下圖(a)表示在阻塞環境(blocking environment)中,動作以順序阻塞的方式執行,假設在獲取狀態與執行動作之間環境狀態不發生變化。我們也可以將其理解為:從智能體的角度看來,獲取狀態與推斷策略是瞬間完成的。與此相反,圖(b)中表示的并發環境(concurrent environment)在獲取狀態與推斷策略之間并沒有假設環境不變,而是允許環境在此期間發生變化。

阻塞環境與并發環境中不同階段的執行順序對比圖。

基于價值的連續與離散并發強化學習算法

研究者從連續時間強化學習的角度開始探索,因為它可以輕松地表示系統的并發特性。之后研究者證明,基于連續情況得出的結論同樣適用于隨后在所有實驗中使用的更為常用的離散環境。

連續環境方程

為了進一步分析并發環境,研究者引入下列符號。智能體在一個周期內選擇 N 個動作軌跡(a_1 , ..., a_N),其中每個 a_i(t) 為一個用于產生控制,并以時間 t 作為變量的連續函數。令 t_{AS} 為獲取狀態、推斷策略與任意額外通信時延的間隔時間。在 t 時刻,智能體開始計算狀態 s(t) 的第 i 個動作 a_i(t)。同時,在時間間隔 (t − H + t_{AS},t+t_{AS}) 內執行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時刻(t ≤ t+t_{AS} ≤ t+H),智能體切換到去執行來自 a_i(t) 的動作。并發環境下的連續 Q 函數可表示如下:

前兩項分別對應執行 (t,t + t_{AS}) 時刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時刻動作 a_i(t) 的期望折扣回報。通過對隨機方程 p 進行采樣,可獲得一個僅關于策略 rollouts 的單樣本(single-sample)蒙特卡洛估計器 Q:

接下來,對于連續時間情形,研究者定義了一個新的并發貝爾曼 backup 算子:

以上算子將貝爾曼算子擴充為考慮并發動作的情形,研究者證明改進后的算子保持了其吸引域的特性,這對于 Q-learning 的收斂性至關重要。

離散環境方程

為了簡化離散情形下的符號(此時動作方程 a_i(t) 與該方程在 t 時刻的值 a_i(t) 并非必需),研究者將當前狀態設置為 s_t,將當前動作設置為 a_t,將上一時刻動作設置為 a_{t−1}(分別將其下標 i 替換為 t)。在以上符號記法下,研究者定義了離散情形下的并發 Q 方程:

其中 t_{AS′} 為動作 a_t 在 t + t_{AS} 時刻開始執行時的「溢出間隔」(spillover duration)。于是,并發貝爾曼算子(以下標 c 表示)為:

與連續情形類似,研究者也證明了該離散貝爾曼算子是一個吸引域。

實驗結果

簡單一階控制問題

首先,研究者通過對標準的 Cartpole 和 Pendulum 環境的并發版本進行控制變量研究,說明了并發控制范式對基于價值的 DRL 方法的影響。

為了估計不同并發知識表示的相對重要性,研究者分析了每種并發知識表示對其他超參數值組合的敏感性,如下圖所示:

Cartpole 和 Pendulum 環境中的實驗結果。

大規模機械臂抓取任務

接下來,研究者分別在仿真與真實機械臂上進行了實驗。

圖 3:仿真和真實環境下的機械臂抓取任務圖示。

表 1 通過對無條件模型與并發知識模型進行比較總結了阻塞和并發模式的性能。并發知識模型能夠學習更快的軌跡,其周期持續時間與阻塞無條件模型相比減少了 31.3%。

表 1:大規模仿真機械臂抓取任務的實驗結果。

此外,研究者在現實世界機器人抓取任務中,對比了并發模型和阻塞模型的定性策略行為,如圖 3b 所示。

如表 2 所示,這些模型在抓取成功方面性能相當,但是就策略持續時間而言,并發模型比阻塞模型快 49%(策略持續時間用來衡量策略的總執行時間,但不包括在周期持續時間中的基礎架構建立和拆除時間,并發操作無法對此優化)。

表 2:真實機械臂抓取結果。

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-07-22 16:55:46

神經網絡數據圖形

2022-06-24 08:20:56

requests爬蟲Python

2009-09-16 10:05:06

GoogleChrome 3.0瀏覽器

2024-04-02 10:13:25

在線小工具開發

2012-07-04 08:48:59

程序員

2023-04-10 14:22:26

PCIe6.0PCIe

2021-01-13 15:16:45

谷歌架構開發者

2024-02-05 08:00:00

代碼生成人工智能自然語言

2012-07-04 09:30:49

程序員開發效率

2011-02-22 09:29:33

無線網絡無線網速

2009-06-15 08:47:33

微軟Windows 7操作系統

2020-05-28 13:20:49

算法谷歌性能

2022-11-21 10:18:24

AI谷歌

2011-07-05 17:14:39

Raritan力登年度環境計劃

2019-07-18 08:54:42

谷歌Android開發者

2010-08-13 11:06:52

創新工場CEO李開復

2009-11-26 11:29:46

Silverlight

2015-11-09 17:53:35

程序員高薪職業

2010-06-03 17:32:34

Tera

2009-09-22 10:09:58

AHCIWindows 7加速
點贊
收藏

51CTO技術棧公眾號

日韩色在线观看| 丁香花在线影院观看在线播放| 国产激情在线播放| 亚洲天堂2016| 国产一级片黄色| 国产.精品.日韩.另类.中文.在线.播放| 国产呦系列欧美呦日韩呦| 婷婷激情综合| 国产精品看片资源| 伊人成综合网伊人222| 欧美日本精品在线| 国产精品1区| 日韩在线观看av| 亚洲精品555| 一区二区三区动漫| 日韩成人一区| 欧美黄色小视频| 欧美日韩一区二区三区四区不卡| 国内久久久精品| 欧美禁忌电影| 91精品久久久久久久久中文字幕| 欧州一区二区| 91九色对白| 亚洲无吗在线| 久久一区二区精品| 美女www一区二区| 9色视频在线观看| 91久色porny| 日本成人黄色网址| 亚洲国产人成综合网站| av免费观看一区二区| 日韩欧美高清一区| 在线观看涩涩| 久久久精品免费视频| 9l视频自拍蝌蚪9l视频成人| 2019中文字幕在线免费观看| 99热国内精品| 青青成人在线| 成人免费观看男女羞羞视频| 手机看片福利日韩| 午夜精品久久一牛影视| 午夜在线小视频| 亚洲欧洲xxxx| 国偷自产视频一区二区久| 国产精品视频一区二区高潮| 国产一区欧美| 欧洲金发美女大战黑人| 久久久久99精品一区| 在线看片你懂的| 欧美大片顶级少妇| 亚洲精品v亚洲精品v日韩精品| 国产精品高清网站| 在线亚洲观看| 内射国产内射夫妻免费频道| 亚洲午夜精品网| 国模雨婷捆绑高清在线| 久久99热精品这里久久精品| 五月天激情综合网| 成人在线免费观看网址| 亚洲三级在线免费观看| 日本在线免费| 久久这里有精品视频| 亚洲综合自拍| 欧美国产日韩激情| 欧美日韩国产在线| 欧美freesex| 91精品久久久久久久久久久久久久 | 午夜精品久久久久99热蜜桃导演 | 91精品国产91久久久久久密臀| 午夜精品短视频| 欧美激情一区二区三区四区| 2021av在线| 欧美激情精品久久久久| 99热这里只有成人精品国产| 成人在线观看黄| 欧美性大战久久久久久久蜜臀| 国产原创一区| 国产69精品久久久久9999apgf| 成人免费视频视频在线观看免费 | 9色porny自拍视频一区二区| 在线视频毛片| 国产亚洲欧洲高清| 亚洲精品a级片| 日本在线观看a| 日韩视频123| 亚洲v天堂v手机在线| 天天在线免费视频| 欧美综合久久久| 牛牛影视久久网| 日韩a级黄色片| 欧美日韩视频在线第一区| 亚洲午夜免费| 中文字幕在线乱| 欧美日本在线一区| 欧美美女在线直播| 青青草原国产免费| 在线影院国内精品| 国产suv精品一区二区四区视频| 日韩av一区二区三区在线| 亚洲精品乱码久久久久久黑人| av资源中文在线| 国产在线播放一区二区| 亚洲午夜羞羞片| 加勒比视频一区| 欧美色图色综合| 亚洲欧美第一页| 日韩av在线播放中文字幕| 日韩a在线观看| 国产成人97精品免费看片| 国产91精品欧美| 欧美13videosex性极品| 久久本道综合色狠狠五月| 婷婷久久综合九色综合伊人色| 久久超级碰碰| 美女网站色免费| 欧美精品在线免费观看| 不卡视频一二三四| 精品免费av一区二区三区 | 欧美人与禽猛交乱配视频| 国产精品午夜久久久久久| 欧美巨大黑人极品精男| 成人视屏免费看| 午夜日韩成人影院| 日韩精品第1页| 亚洲精品一区二区三区婷婷月| 免费日韩视频| 秋霞午夜理伦电影在线观看| 国产精品福利视频| 欧美日韩精品综合在线| 亚洲激情网站| 国产一二区在线| 另类欧美小说| 日韩女优制服丝袜电影| 免费在线播放第一区高清av| 国产在线激情| 日韩不卡av| 亚洲电影av在线| 经典一区二区三区| 日韩激情电影免费看| 成年人视频大全| 精品国产区一区二区三区在线观看| 国产成人午夜电影网| 人人精品久久| 精品久久久久久中文字幕2017| 久久综合电影一区| 国产精品不卡一区| 日韩精品一卡| 高h视频在线| 欧美久久久久久久| 亚洲国产精品专区久久| 国产成人高清在线| 欧美精品影院| 理论片播放午夜国外| 亚洲在线免费看| 欧美不卡在线视频| 99久久精品久久久久久清纯| 国产欧美三级电影| 免费在线毛片| 伊人久久大香线蕉午夜av| 久久综合网hezyo| 夜夜亚洲天天久久| 亚洲一区二区三区免费在线观看| 国模套图日韩精品一区二区| 992kp快乐看片永久免费网址| 国产精品免费在线免费 | 亚洲精品www久久久| 91视频在线看| 日本在线电影一区二区三区| av免费在线一区二区三区| 国产成人三级视频| 55夜色66夜色国产精品视频| 色哟哟一区二区三区| 美女一区二区三区在线观看| 亚洲老司机网| 在线观看h视频| 国产精品夜夜夜爽张柏芝| 午夜精品一区二区三区在线| 色视频一区二区| 国产在线播精品第三| 麻豆精品99| 国产盗摄在线观看| 免费在线观看毛片网站| 91精品久久久久久久久久久久久久 | 日本中文在线观看| 中文字幕av久久| 欧美人与动牲交xxxxbbbb| 最新天堂资源在线资源| 欧美xxx视频| 伊人久久婷婷| 亚洲一区在线观看免费 | 最近2019年好看中文字幕视频| 日韩亚洲欧美在线| 欧美乱大交xxxxx| 热re99久久精品国产99热| av片在线免费观看| 欧美日韩在线观看视频小说| 亚洲欧美一区在线| av色综合久久天堂av综合| 欧美日韩一区二区电影| 久久久极品av|