国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Science 好文:強化學習之后,機器人學習瓶頸如何突破?

新聞 機器學習
在過去的十年里,機器學習確實取得了巨大的突破,計算機視覺與語言處理方面也因此出現了許多改變世界的重要應用。但是,這股“春風”卻沒有吹到智能機器人領域。

[[340407]]

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

在過去的十年里,機器學習確實取得了巨大的突破,計算機視覺與語言處理方面也因此出現了許多改變世界的重要應用。但是,這股“春風”卻沒有吹到智能機器人領域。

針對機器人學習所面臨的瓶頸,麻省理工學院機器人專家Leslie Pack Kaebling在《Science》上發表一篇名為《The foundation of efficient robot learning》的文章。她認為,造成這一現象的一個關鍵因素在于:機器人學習的數據只能通過在現實世界的操作中獲得,成本非常高昂。

為此,Leslie教授提出,實現下一代機器人學習的技術革新,需要應用新的算法、從自然體系中獲取靈感,并靈活使用多項機器學習技術。

1. 強化學習是否真的那么靈?

盡管監督學習取得了許多重要的成果,但在機器人學習領域,強化學習(RL)更具有優勢,因為機器人要在人類世界中執行一系列不同的任務。

在監督學習中,學習算法被賦予輸入與期望輸出的配對示例,并學會將輸入與期望輸出關聯起來。而在強化學習中,智能體能夠根據事先設置的獎勵信號來判斷自己的表現是出色的,或是差勁的,進而選擇恰當的行動方式,這與機器人所應用的復雜環境有利相關。簡而言之,監督學習與強化學習的本質區別在于:在強化學習里,智能體的行為對數據產生重大影響,并能控制自己的學習探索,這對整體成功至關重要。

在一開始,RL是通過獎勵和懲罰機制來學習動物行為的模型。之后,如果應用RL處理現實世界里的問題,那么RL必須拓展,以處理巨大空間的輸入和動作,并且,即使成功執行關鍵動作后獎勵“姍姍來遲”,RL也能維持正常運行狀態。這時候,便出現了深度強化學習(DRL)方法。

DRL使用了神經網絡來解決上述的現實問題,并展現了驚人的性能,比如機器人下國際象棋和圍棋游戲,以及用機器手臂3秒鐘解出魔方。此外,RL也帶來了許多實用性強的應用,比如提高安裝計算機的能效。     

[[340408]]

 有了這些成功的機器人案例后,人們自然而然便會想象:在物理世界中,RL是否會完全取代以往運用在機器人身上的傳統工程方法和其他行為復雜的系統呢?

從技術層面上看,這種想象是荒謬的。

我們可以想象一個專門幫助老人料理家務的機器人:在“上崗”之前,機器人必須先具備大量知識與能力,同時還需要在工作中學習新的知識、不斷積累工作經驗。后者的學習必須是樣本高效的(需要相對較少的訓練示例)、可泛化的(適用于特定學習以外的其他情況)、組合性的(能與以往的知識相結合)和增量式的(能夠隨著時間的推移增加新知識和新能力)。

但是,現有的DRL方法都不具備以上特性。雖然它們可以學習許多令人震驚的新技能,但總的來說,它們無法將所積累的大量經驗很好地泛化至其他方面,且在訓練與執行的過程中表現單一,比如既沒有增長新的知識,也沒有組合以往的經驗。

如何能使一個智能系統同時具有樣本高效性、泛化性、組合性和增量性呢?經證明,現代神經網絡能有效處理插值問題。

如果有大量參數,神經網絡能夠牢記訓練數據,并在相似的示例上做出可靠預測。我們可以通過內置知識或結構的形式,向學習算法賦予“歸納偏置”(inductive bias),進而獲取泛化能力。比方說,在擁有歸納偏置的自動駕駛系統中,系統的剎車方案只需要參考在規定距離范圍內的其他車輛的位置。該系統的知識能從相對較少的示例中獲取,因為良好擬合觀察數據的可選解決方案有限。

總體而言,歸納偏置能夠提高樣本高效性和泛化能力。組合性和增量性則可以通過搭建有特定結構的歸納偏置模型來獲得,在這個模型里,通過學習獲得的“知識”被分解成具有獨立語義的的因子(factor),這些因子可以組合起來解決大量的新問題。

2. 如何巧妙建立歸納偏置?

基于先驗知識或結構的觀點不一定是“真知灼見”。

強化學習領域的先驅者Richard Sutton堅信,人類不應該將任何先驗知識構容納到學習系統中,因為縱觀歷史,這種做法往往是錯的。Richard Sutton的文章引起了強烈的反響,并指明了學習系統設計中的一個關鍵問題:在學習系統中建立什么樣的歸納偏置,才能使系統具有從大量數據中學習可泛化知識、又不會因為數據不正確或過約束而失靈呢?

目前有兩種設置恰當偏置的方法。這兩種方法具有連貫性,但具有不同的時間范圍和權衡取舍(trade-offs),可以同時應用于尋找學習智能體所需的強大而靈活的先驗結構。

方法1:在“元”層面運用機器學習技術

這種方法指的是,在系統設計階段,離線使用機器學習技術來發現能提高智能體在線學習效率的結構、算法和先驗知識。

元學習的基本概念至少從上世紀80年代在機器學習和統計學中出現,基本思路是:在系統設計階段,元學習過程便能訪問系統在線學習時可能面臨的許多潛在任務或環境的樣本。

元學習器的目的不在于掌握適應單個環境的多種策略或適用于全部環境的單項策略,而是掌握一種在線學習時面臨新任務或新環境時也盡可能高效學習的算法。這個目標可以通過在訓練任務間引入共性,并使用這些共性形成有力的先驗或歸納偏置,使在線學習的智能體只學習那些將新任務與訓練任務區分開來的方面。

元學習可以非常出色地形式化為一種分層的貝葉斯(概率)推理。在這種推理形式中,訓練任務可以看作是在提供在線學習的任務會如何表現的證據,并基于這些證據利用好在線學習所獲得的數據。但是,貝葉斯形式在計算上可能很難實現,因為它是對系統設計階段中所遇到的大量任務進行推理,其中也可能包含在線學習的實際任務。

方法2:將元學習明確地描述為兩個嵌套的優化問題

內部優化在線進行指的是:智能體試圖從系統設計階段生成的一系列假設中找到在線學習數據中“得分”最佳的假設。內部優化的特色在于假設空間、評分標準和將用于搜索最佳假設的計算機算法。在傳統的機器學習中,這些成分由人類工程師提供。

但在元學習中,至少一部分是由系統設計階段進行的外部“元”優化過程所提供的。元優化試圖找到內部學習過程本身的參數。這些參數能使學習在與元學習的環境相似的新環境中進行(源于相同的分布)。

最近有研究介紹了一種新的元學習形式,叫做“與模型無關的元學習”(model-agnostic meta-learning,MAML)。MAML是一個嵌套的優化框架,其中外部優化選擇的是一些內部神經網絡權重的初始值,能通過在線學習的標準梯度下降優化方法進一步調整。RL2算法在系統設計階段中使用DRL來學習在線學習運行的一般小型程序,但這些小型程序不一定具有機器學習程序的形式。另一個變體試圖在系統設計階段發現可以組合起來以解決在線學習出現的問題的模塊構造塊(modular building blocks,如小型神經網絡)。

自然界中的進化過程可以被認為是元學習的一種極端形式。在自然進化中,自然界會為了動物去尋找一個含有潛在學習算法的、極其不受限制的空間。(當然,從本質上講,智能體的生理狀況也會發生改變。)在機器人生命周期內,對內部優化問題的處理越靈活,越需要更多用于提高魯棒性的資源,包括系統設計階段的示例環境、在線學習的性能不佳的機器人,以及在兩個階段運行的計算容量。 

這時候,我們又回到最初的問題:標準的強化學習方法不會被采用,因為盡管它是一種通用的學習方法,但它需要大量的在線學習經驗。然而,元強化學習(meta-RL)需要豐富的系統設計經驗,這可能會使開發過程變得遲鈍、緩慢而花費高昂。因此,也許元學習也不是一個好的解決方法。

那還有什么解決方法呢?有很多方向可以探索,包括人類教學、與其他機器人協作學習,以及更改機器人的硬件和軟件。在所有這些情況下,關鍵的一步還是設計出有效的方法來開發機器人軟件。通過運用從計算機科學和工程學中所獲得的見識以及認知神經科學的啟發,我們可以找到能夠內置到學習智能體中的算法和結構,并提供在系統設計階段和在線學習算法和結構的杠桿。

卷積神經網絡的發展是上述方法的典型例子。卷積神經網絡的理念是設計出一種用于圖像處理的神經網絡,以使其執行“卷積”,即在整個圖像上使用相同的計算模式對圖像塊進行局部處理。這個設計同時對先驗知識進行了編碼。在此處,先驗知識指的是無論物體處于圖像中的什么位置,物體都具有基本相同的外觀(平移不變性),以及接近的像素組共享圖像內容的信息(空間局部性)。與沒有卷積結構的情況相比,以這種方式訓練一個神經網絡意味著需要的參數數量更少,因此訓練次數也相應減少。

圖像卷積的點子由工程師和自然啟發,是早期信號處理和計算機視覺的基礎概念。一直以來,人們都認為,哺乳動物視覺皮層中的細胞似乎也在執行類似的計算。

3. 總結

由此可見,發現更多能為機器人學習提供實質性的杠桿作用、又不會阻止機器人進行一般智能行為的基本結構或算法約束,比如卷積,是非常重要的一步。雷鋒網

現在也有一些不錯的解決方法,比如說:一,用有行動效應的“心理模型”來進行某種形式的正向搜索,類似于規劃或推理;二,學習并表示從單個對象中提取、但可以廣泛應用的知識,比如,對所有的A和B而言,如果A在B之上,移動B時,A可能也會移動;三,對三維空間進行推理,包括在三維空間內規劃和執行動作、將三維空間作為存儲的組織原理。雷鋒網

此外,我們也許還需要更多可能有效的原理,也需要解決許多其他問題,包括如何開發能同時在系統設計階段和在線進行訓練的基礎設施,還有幫助人類明確獎勵和維系安全的方法。綜合考慮工程原理、生物學靈感、系統設計階段學習以及最終的在線學習,人類最終才有可能打造出類人的智能機器人。

 

 

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2025-06-11 14:45:26

機器人訓練數據

2025-09-15 14:50:03

AI機器人開發

2019-01-15 13:14:03

機器人算法SAC

2025-10-27 09:02:00

2024-04-15 08:20:00

機器人技能

2025-07-22 12:32:37

2025-08-07 09:16:41

2025-11-28 10:49:43

2025-07-25 09:42:47

2020-01-23 15:33:07

AI 數據人工智能

2024-05-28 13:03:50

2018-07-06 08:58:53

機器人人工智能系統

2022-10-28 13:16:07

四足機器人機器人人工智能

2024-12-09 08:45:00

模型AI

2021-01-12 14:50:55

機器學習人工智能計算機

2019-12-24 09:31:55

機器人人工智能編程

2017-03-27 09:59:25

機器人自創語言交流

2023-12-03 22:08:41

深度學習人工智能

2025-06-27 10:10:43

AI模型技術

2023-10-04 09:17:03

機器人AI
點贊
收藏

51CTO技術棧公眾號

深夜成人福利| 久久先锋影音| 亚洲人成电影在线观看天堂色| 在线播放中文字幕| 国产精品久久久久久户外露出 | 国产剧情在线观看| 在线日韩日本国产亚洲| 夜夜添无码一区二区三区| 99久久婷婷国产综合精品青牛牛| 中文字幕第一区二区| 欧美午夜精品免费| 亚洲自拍偷拍在线| 久久精品xxxxx| 国产精品久久久久久久久久久久| 国产精品原创视频| 日韩专区在线观看| 日韩精品一级| 欧美极品第一页| 亚洲图区在线| 91精品视频在线| 欧美精品午夜| 亚洲高清精品中出| 懂色av一区二区三区免费观看| 免费高清一区二区三区| 国产情人综合久久777777| 电影天堂最新网址| 欧洲精品在线观看| heyzo在线播放| 久热精品视频在线免费观看| 岛国成人av| 亚洲淫片在线视频| 青青草视频一区| 成人午夜免费在线视频| 国产精品麻豆视频| аⅴ资源新版在线天堂| 国产视频精品va久久久久久| 777久久精品| 91老司机精品视频| 日本1区2区3区中文字幕| 伊甸园亚洲一区| av在线不卡一区| 日韩电影在线免费| 亚洲 欧美 综合 另类 中字| 国产精品久99| 色视频在线观看免费| 精品国产乱码久久久久久图片| 精品免费av在线| 日本欧美黄网站| 性欧美videos另类喷潮| 国产视频九色蝌蚪| 亚洲电影在线免费观看| 黄页视频在线播放| 在线成人一区二区| 少妇精品久久久一区二区三区| 国产视频一区二区三区四区| 从欧美一区二区三区| 黄页大全在线免费观看| 欧美大片一区二区| 精品国产亚洲一区二区在线观看 | 亚洲国产精品va在线观看黑人| 9999精品| 成人动漫视频在线观看免费| av午夜一区麻豆| 国内av一区二区三区| 久久久久久毛片免费看| 日韩女优在线播放| 九九国产精品视频| 成人羞羞视频免费看看| 精品99一区二区| 日韩av片子| 亚洲国产精品成人天堂| 欧美午夜精品电影| 综合成人在线| 亚洲精品无人区| 精品国产鲁一鲁一区二区张丽 | 国产美女永久无遮挡| 欧美色视频日本版| 欧美伊人亚洲伊人色综合动图| 97超碰最新| 国产精品二三区| 中文在线а√在线8| 国产精品日韩欧美一区二区三区| 国产女主播视频一区二区| a级片在线免费| 亚洲伊人成综合成人网| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 在线激情av| 欧美成在线视频| 蜜臀精品一区二区三区在线观看 | 欧美日韩综合久久| 99国产精品久| 污视频网站免费在线观看| 日韩免费在线免费观看| 国产成人精品三级| 超碰在线最新| 91免费国产视频| 亚洲日本一区二区三区| 狠狠久久综合婷婷不卡| 亚洲免费观看高清完整版在线观| 欧美日韩福利在线| 精品国产免费人成电影在线观看四季 | 国产欧美88| 在线无限看免费粉色视频| 欧美视频中文字幕| 亚洲精品97| 天堂在线第六区| 日本精品免费观看| 国产精品视频一二三区| 久久国际精品| 色综合久久久久无码专区| 日韩不卡中文字幕| 免费在线看一区| 大香伊人久久| 午夜欧美性电影| 欧美高清激情brazzers| 一区二区在线影院| 亚洲尤物在线视频| 国产精品mp4| 亚洲第一福利一区| 久久中文字幕av一区二区不卡| 免费观影入口看日本视频| 欧美一区二区三区免费观看| 国产精品丝袜久久久久久app| 精品视频91| 992kp快乐看片永久免费网址| 精品国偷自产在线视频99| 91美女片黄在线观看| 国产精品一区视频| 亚洲少妇激情视频| 国产精品久久久久久亚洲伦| 久久一区二区中文字幕| 奇米影视在线99精品| 免费超爽大片黄| 97超级碰在线看视频免费在线看| 分分操这里只有精品| 日韩三级电影网址| 99在线精品免费视频九九视| 国产精品va在线观看视色| 亚洲va久久久噜噜噜久久狠狠| 亚洲国产精品悠悠久久琪琪| 高清国产一区二区| 麻豆国产精品| 好紧好硬好湿我太爽了| 91日本视频在线| 欧美电影一区二区三区| 久久国产成人午夜av影院| 91精品影视| www成人免费观看网站| 91精品久久久久| 91精品国模一区二区三区| 久久99精品网久久| 国产欧美日韩电影| 性疯狂做受xxxx高清视频| 国产精品区一区二区三在线播放| 欧美va亚洲va在线观看蝴蝶网| 国产成人av电影在线| 国产精品1luya在线播放| 一级毛片在线看| 日韩精品另类天天更新| 国产小视频国产精品| 国产女人aaa级久久久级| 99久久激情| 国产网红在线观看| 成年人网站大全| 99精品国产高清在线观看| 日韩成人在线观看| yiren22亚洲综合| 一区二区三区视频免费在线观看| 91在线一区二区三区| 日韩成人av在线资源| 毛片在线播放a| 黑人糟蹋人妻hd中文字幕| 91精品中文在线| 国产亚洲精品成人av久久ww| 一区二区三区四区高清精品免费观看| 亚洲免费婷婷| 91免费精品国偷自产在线在线| 男女视频在线观看| 国产精品无码免费专区午夜| 热久久视久久精品18亚洲精品| 日韩一区二区不卡| 国产精品福利一区二区三区| 午夜在线精品偷拍| aaa国产精品视频| 超碰在线免费公开| 99re热在线观看| 色综合久久久久久久久五月| 91成人福利在线| 亚洲国产精品电影在线观看| 亚洲国产日韩精品| 成人一级片在线观看| 欧美91精品| 成人动态视频| 国产一二三在线| 天堂视频中文在线| 青青视频在线播放| 欧美日韩一区二区三区在线视频 | 美日韩精品免费| 久久久在线观看| 日韩经典中文字幕|