Science 好文：強化學習之后，機器人學習瓶頸如何突破？

作者：陳彩嫻 2020-09-02 10:36:52

在過去的十年里，機器學習確實取得了巨大的突破，計算機視覺與語言處理方面也因此出現了許多改變世界的重要應用。但是，這股“春風”卻沒有吹到智能機器人領域。

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

針對機器人學習所面臨的瓶頸，麻省理工學院機器人專家Leslie Pack Kaebling在《Science》上發表一篇名為《The foundation of efficient robot learning》的文章。她認為，造成這一現象的一個關鍵因素在于：機器人學習的數據只能通過在現實世界的操作中獲得，成本非常高昂。

為此，Leslie教授提出，實現下一代機器人學習的技術革新，需要應用新的算法、從自然體系中獲取靈感，并靈活使用多項機器學習技術。

1. 強化學習是否真的那么靈？

盡管監督學習取得了許多重要的成果，但在機器人學習領域，強化學習（RL）更具有優勢，因為機器人要在人類世界中執行一系列不同的任務。

在監督學習中，學習算法被賦予輸入與期望輸出的配對示例，并學會將輸入與期望輸出關聯起來。而在強化學習中，智能體能夠根據事先設置的獎勵信號來判斷自己的表現是出色的，或是差勁的，進而選擇恰當的行動方式，這與機器人所應用的復雜環境有利相關。簡而言之，監督學習與強化學習的本質區別在于：在強化學習里，智能體的行為對數據產生重大影響，并能控制自己的學習探索，這對整體成功至關重要。

在一開始，RL是通過獎勵和懲罰機制來學習動物行為的模型。之后，如果應用RL處理現實世界里的問題，那么RL必須拓展，以處理巨大空間的輸入和動作，并且，即使成功執行關鍵動作后獎勵“姍姍來遲”，RL也能維持正常運行狀態。這時候，便出現了深度強化學習（DRL）方法。

DRL使用了神經網絡來解決上述的現實問題，并展現了驚人的性能，比如機器人下國際象棋和圍棋游戲，以及用機器手臂3秒鐘解出魔方。此外，RL也帶來了許多實用性強的應用，比如提高安裝計算機的能效。

[[340408]]

有了這些成功的機器人案例后，人們自然而然便會想象：在物理世界中，RL是否會完全取代以往運用在機器人身上的傳統工程方法和其他行為復雜的系統呢？

從技術層面上看，這種想象是荒謬的。

我們可以想象一個專門幫助老人料理家務的機器人：在“上崗”之前，機器人必須先具備大量知識與能力，同時還需要在工作中學習新的知識、不斷積累工作經驗。后者的學習必須是樣本高效的（需要相對較少的訓練示例）、可泛化的（適用于特定學習以外的其他情況）、組合性的（能與以往的知識相結合）和增量式的（能夠隨著時間的推移增加新知識和新能力）。

但是，現有的DRL方法都不具備以上特性。雖然它們可以學習許多令人震驚的新技能，但總的來說，它們無法將所積累的大量經驗很好地泛化至其他方面，且在訓練與執行的過程中表現單一，比如既沒有增長新的知識，也沒有組合以往的經驗。

如何能使一個智能系統同時具有樣本高效性、泛化性、組合性和增量性呢？經證明，現代神經網絡能有效處理插值問題。

如果有大量參數，神經網絡能夠牢記訓練數據，并在相似的示例上做出可靠預測。我們可以通過內置知識或結構的形式，向學習算法賦予“歸納偏置”（inductive bias），進而獲取泛化能力。比方說，在擁有歸納偏置的自動駕駛系統中，系統的剎車方案只需要參考在規定距離范圍內的其他車輛的位置。該系統的知識能從相對較少的示例中獲取，因為良好擬合觀察數據的可選解決方案有限。

總體而言，歸納偏置能夠提高樣本高效性和泛化能力。組合性和增量性則可以通過搭建有特定結構的歸納偏置模型來獲得，在這個模型里，通過學習獲得的“知識”被分解成具有獨立語義的的因子（factor），這些因子可以組合起來解決大量的新問題。

2. 如何巧妙建立歸納偏置？

基于先驗知識或結構的觀點不一定是“真知灼見”。

強化學習領域的先驅者Richard Sutton堅信，人類不應該將任何先驗知識構容納到學習系統中，因為縱觀歷史，這種做法往往是錯的。Richard Sutton的文章引起了強烈的反響，并指明了學習系統設計中的一個關鍵問題：在學習系統中建立什么樣的歸納偏置，才能使系統具有從大量數據中學習可泛化知識、又不會因為數據不正確或過約束而失靈呢？

目前有兩種設置恰當偏置的方法。這兩種方法具有連貫性，但具有不同的時間范圍和權衡取舍（trade-offs），可以同時應用于尋找學習智能體所需的強大而靈活的先驗結構。

方法1：在“元”層面運用機器學習技術

這種方法指的是，在系統設計階段，離線使用機器學習技術來發現能提高智能體在線學習效率的結構、算法和先驗知識。

元學習的基本概念至少從上世紀80年代在機器學習和統計學中出現，基本思路是：在系統設計階段，元學習過程便能訪問系統在線學習時可能面臨的許多潛在任務或環境的樣本。

元學習器的目的不在于掌握適應單個環境的多種策略或適用于全部環境的單項策略，而是掌握一種在線學習時面臨新任務或新環境時也盡可能高效學習的算法。這個目標可以通過在訓練任務間引入共性，并使用這些共性形成有力的先驗或歸納偏置，使在線學習的智能體只學習那些將新任務與訓練任務區分開來的方面。

元學習可以非常出色地形式化為一種分層的貝葉斯（概率）推理。在這種推理形式中，訓練任務可以看作是在提供在線學習的任務會如何表現的證據，并基于這些證據利用好在線學習所獲得的數據。但是，貝葉斯形式在計算上可能很難實現，因為它是對系統設計階段中所遇到的大量任務進行推理，其中也可能包含在線學習的實際任務。

方法2：將元學習明確地描述為兩個嵌套的優化問題

內部優化在線進行指的是：智能體試圖從系統設計階段生成的一系列假設中找到在線學習數據中“得分”最佳的假設。內部優化的特色在于假設空間、評分標準和將用于搜索最佳假設的計算機算法。在傳統的機器學習中，這些成分由人類工程師提供。

但在元學習中，至少一部分是由系統設計階段進行的外部“元”優化過程所提供的。元優化試圖找到內部學習過程本身的參數。這些參數能使學習在與元學習的環境相似的新環境中進行（源于相同的分布）。

最近有研究介紹了一種新的元學習形式，叫做“與模型無關的元學習”（model-agnostic meta-learning，MAML）。MAML是一個嵌套的優化框架，其中外部優化選擇的是一些內部神經網絡權重的初始值，能通過在線學習的標準梯度下降優化方法進一步調整。RL2算法在系統設計階段中使用DRL來學習在線學習運行的一般小型程序，但這些小型程序不一定具有機器學習程序的形式。另一個變體試圖在系統設計階段發現可以組合起來以解決在線學習出現的問題的模塊構造塊（modular building blocks，如小型神經網絡）。

自然界中的進化過程可以被認為是元學習的一種極端形式。在自然進化中，自然界會為了動物去尋找一個含有潛在學習算法的、極其不受限制的空間。（當然，從本質上講，智能體的生理狀況也會發生改變。）在機器人生命周期內，對內部優化問題的處理越靈活，越需要更多用于提高魯棒性的資源，包括系統設計階段的示例環境、在線學習的性能不佳的機器人，以及在兩個階段運行的計算容量。

這時候，我們又回到最初的問題：標準的強化學習方法不會被采用，因為盡管它是一種通用的學習方法，但它需要大量的在線學習經驗。然而，元強化學習（meta-RL）需要豐富的系統設計經驗，這可能會使開發過程變得遲鈍、緩慢而花費高昂。因此，也許元學習也不是一個好的解決方法。

那還有什么解決方法呢？有很多方向可以探索，包括人類教學、與其他機器人協作學習，以及更改機器人的硬件和軟件。在所有這些情況下，關鍵的一步還是設計出有效的方法來開發機器人軟件。通過運用從計算機科學和工程學中所獲得的見識以及認知神經科學的啟發，我們可以找到能夠內置到學習智能體中的算法和結構，并提供在系統設計階段和在線學習算法和結構的杠桿。

卷積神經網絡的發展是上述方法的典型例子。卷積神經網絡的理念是設計出一種用于圖像處理的神經網絡，以使其執行“卷積”，即在整個圖像上使用相同的計算模式對圖像塊進行局部處理。這個設計同時對先驗知識進行了編碼。在此處，先驗知識指的是無論物體處于圖像中的什么位置，物體都具有基本相同的外觀（平移不變性），以及接近的像素組共享圖像內容的信息（空間局部性）。與沒有卷積結構的情況相比，以這種方式訓練一個神經網絡意味著需要的參數數量更少，因此訓練次數也相應減少。

圖像卷積的點子由工程師和自然啟發，是早期信號處理和計算機視覺的基礎概念。一直以來，人們都認為，哺乳動物視覺皮層中的細胞似乎也在執行類似的計算。

3. 總結

由此可見，發現更多能為機器人學習提供實質性的杠桿作用、又不會阻止機器人進行一般智能行為的基本結構或算法約束，比如卷積，是非常重要的一步。雷鋒網

現在也有一些不錯的解決方法，比如說：一，用有行動效應的“心理模型”來進行某種形式的正向搜索，類似于規劃或推理；二，學習并表示從單個對象中提取、但可以廣泛應用的知識，比如，對所有的A和B而言，如果A在B之上，移動B時，A可能也會移動；三，對三維空間進行推理，包括在三維空間內規劃和執行動作、將三維空間作為存儲的組織原理。雷鋒網

此外，我們也許還需要更多可能有效的原理，也需要解決許多其他問題，包括如何開發能同時在系統設計階段和在線進行訓練的基礎設施，還有幫助人類明確獎勵和維系安全的方法。綜合考慮工程原理、生物學靈感、系統設計階段學習以及最終的在線學習，人類最終才有可能打造出類人的智能機器人。

責任編輯：張燕妮來源：雷鋒網

機器人人工智能系統

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Science 好文：強化學習之后，機器人學習瓶頸如何突破？

1. 強化學習是否真的那么靈？

2. 如何巧妙建立歸納偏置？

3. 總結