国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<rt id="jsqsx"><listing id="jsqsx"><sub id="jsqsx"></sub></listing></rt>

<ol id="jsqsx"></ol>

<noscript id="jsqsx"><legend id="jsqsx"></legend></noscript>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

AlphaGo之父找到創造強化學習算法新方法：讓AI自己設計

2025-10-28 15:42:32

人工智能新聞

近日，谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。并且，他們得到了非常積極的結果：機器確實能夠自主發現性能達到 SOTA 的強化學習規則，并且其表現優于人工設計的規則。

強化學習是近來 AI 領域最熱門的話題之一，新算法也在不斷涌現。

那么，問題來了：AI 能不能自己發現強大的強化學習算法呢？

近日，谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。并且，他們得到了非常積極的結果：機器確實能夠自主發現性能達到 SOTA 的強化學習規則，并且其表現優于人工設計的規則。

標題：Discovering state-of-the-art reinforcement learning algorithms

地址：https://www.nature.com/articles/s41586-025-09761-x

值得注意的是，該團隊的負責人、通訊作者是強化學習領域的引領研究者 David Silver，他也曾領導了著名的 AlphaGo 項目，常被稱為「AlphaGo 之父」。截至目前，David Silver 的引用量已接近 27 萬。本研究共有四位共同一作：Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。

具體到方法上，該團隊的思路是：在大量復雜環境中，基于大量智能體的經驗積累，進行元學習（meta-learning）。這個方法能夠發現智能體在更新策略與預測時所遵循的強化學習規則。

該團隊還進行了大規模實驗，結果發現這一「自動發現的規則」在經典的 Atari 基準測試上超越了所有現有方法，并且在若干它從未見過的高難度基準測試上也優于多種 SOTA 強化學習算法。

這一研究結果可謂意義重大。它意味著，未來實現高級 AI 所需的強化學習算法或許將不再依賴人工設計，而是能夠從智能體自身的經驗中自動涌現與進化。

發現方法

該團隊的發現方法涉及兩種類型的優化：智能體優化和元優化。智能體參數通過將其策略和預測更新至強化學習規則所產生的目標來進行優化。與此同時，強化學習規則的元參數則通過更新其目標來進行優化，以最大化智能體的累積獎勵。

智能體網絡

許多強化學習研究考慮的是智能體應該做出什么預測（例如，價值），以及應該使用什么損失函數來學習這些預測（例如，TD 學習）和改進策略（例如，策略梯度）。

該團隊沒有采用手工設計的方式，而是定義了一個沒有預定義語義、富有表現力的預測空間，并通過使用元網絡進行元學習，來找出智能體需要優化的內容。他們希望在保留表征現有強化學習算法中核心思想能力的同時，也支持廣闊的新穎算法可能性空間。

為此，該團隊讓由 θ 參數化的智能體除了輸出策略 π 之外，還輸出兩種類型的預測：一個基于觀測的向量預測 y (s) 和一個基于動作的向量預測 z (s,a) ，其中 s 和 a 分別是觀測和動作 (見下圖)。

這些預測的形式源于「預測」與「控制」之間的根本區別。例如，價值函數通常被分為狀態函數 v (s) (用于預測) 和動作函數 q (s,a) (用于控制)。強化學習中的許多其他概念，例如獎勵和后繼特征，也同樣具有一個基于觀測的版本 s??^m 和一個基于動作的版本 s,a??^m. 因此，這對預測 (y,z) 的函數形式足夠通用，可以用來表示 RL 中的許多現有基本概念，但又不僅限于此。

除了這些有待發現的預測之外，在我們的大多數實驗中，智能體還會做出具有預定義語義的預測。具體來說，智能體會產生一個動作價值函數 q (s,a) 和一個基于動作的輔助策略預測 p (s,a)。這樣做是為了鼓勵發現過程能更專注于通過 y 和 z 來發現新概念。

元網絡

很大一部分現代強化學習規則采用了 RL 的「前向視圖」。在這種視圖下，RL 規則接收一個從時間步 t 到 t+n 的軌跡，并利用這些信息來更新智能體的預測或策略。它們通常會將預測或策略朝著「引導目標」更新，即朝著未來的預測值更新。

相應地，該團隊的 RL 規則使用一個元網絡（圖 1c）作為函數，來決定智能體應將其預測和策略更新至的目標。為了在時間步 t 產生目標，該元網絡會接收從時間步 t 到 t+n 的一段軌跡作為輸入，這段軌跡包含了智能體的預測、策略、獎勵以及回合是否終止的信息。它使用一個標準的 LSTM 來處理這些輸入，當然也可以使用其他架構。

元網絡的輸入和輸出選擇保留了手工設計的 RL 規則所具備的一些理想特性：

首先，元網絡可以處理任何觀測信息，以及任何大小的離散動作空間。這是因為它不直接接收觀測作為輸入，而是通過智能體的預測間接獲取信息。此外，它通過在不同動作維度間共享權重來處理特定于動作的輸入和輸出。因此，它可以泛化到截然不同的環境中。

其次，元網絡與智能體網絡的設計無關，因為它只接收智能體網絡的輸出。只要智能體網絡能產生所需形式的輸出 (π, y, z)，被發現的 RL 規則就可以泛化到任意的智能體架構或規模。

第三，由元網絡定義的搜索空間包含了「引導」這一重要的算法思想。

第四，由于元網絡同時處理策略和預測，它不僅可以元學習輔助任務，還可以直接使用預測來更新策略（例如，為減少方差) 提供一個基線。

最后，輸出目標這種方式比輸出一個標量損失函數具有更強的表達能力，因為它將 Q 學習這樣的半梯度方法也納入了搜索空間。

在繼承標準 RL 算法這些特性的基礎上，這個參數豐富的神經網絡使得被發現的規則能夠以可能高得多的效率和更精細的上下文感知方式來實現算法。

智能體優化

智能體的參數 (θ) 會被更新，以最小化其預測和策略與來自元網絡的目標之間的距離。智能體的損失函數可以表示為：

其中 D (p,q) 是 p 和 q 之間的一種距離函數。團隊選擇 KL 散度作為距離函數，因為它足夠通用，并且先前已被發現在元優化中有助于簡化問題。這里的 π_θ,y_θ,z_θ 是智能體網絡的輸出，而 ?π, ?y,? 是元網絡的輸出，每個向量都應用了 softmax 函數進行歸一化。

輔助損失 L_aux 用于那些具有預定義語義的預測，即動作價值 (q) 和輔助策略預測 (p) ，具體如下：

其中 ?q 是來自 Retrace 算法的動作價值目標，并被投影到一個 two-hot 向量 2；而 p?=π_θ(s′) 是下一步的策略。為了與其他損失保持一致，團隊同樣使用 KL 散度作為距離函數 D。

元優化

該團隊的目標是發現一個 RL 規則（由元參數 η 表示的元網絡來代表），它能讓智能體在各種訓練環境中最大化獎勵。這個發現目標 J (η) 及其元梯度可以表示為：

其中表示從一個分布中采樣的環境，θ 表示由初始參數分布誘導、并在使用 RL 規則學習過程中不斷演變的智能體參數。是期望折扣獎勵總和，即典型的 RL 目標。元參數 η 遵循上述方程，使用梯度上升進行優化。

為了估計元梯度，團隊在一套采樣的環境中實例化一個智能體集群，它們根據元網絡進行學習。為了確保這種近似接近團隊感興趣的真實分布，團隊使用了大量來自挑戰性基準的復雜環境。這與先前的工作集中在少數簡單環境上形成對比。因此，這個發現過程會面臨多種多樣的 RL 挑戰，例如獎勵的稀疏性、任務的長度，以及環境的部分可觀測性或隨機性。

每個智能體的參數都會被定期重置，以鼓勵更新規則在有限的智能體生命周期內取得快速的學習進展。與先前關于元梯度 RL 的工作一樣，元梯度項可以通過鏈式法則分為兩個梯度項：和。第一項可以被理解為對智能體更新過程的梯度，而第二項是標準 RL 目標的梯度。

為了估計第一項，該團隊迭代地更新智能體多次，并通過整個更新過程進行反向傳播，如圖 1d 所示。為了使其易于處理，團隊使用滑動窗口對 20 次智能體更新進行反向傳播。最后，為了估計第二項，團隊使用優勢演員 - 評論家 (A2C) 方法。為了估計優勢，團隊訓練了一個元價值函數，這是一個僅用于發現過程的價值函數。

實驗結果

該團隊在一套復雜的環境中，通過一個大型智能體集群實現了新發現方法。

該團隊將發現的 RL 規則稱為 DiscoRL。在評估中，該團隊使用歸一化分數的四分位均值 (IQM) 來衡量聚合性能，該基準由多個任務組成。IQM 之前已被證明是一種統計上可靠的指標。

Atari

Atari 基準是 RL 歷史上研究最多的基準之一，由 57 款 Atari 2600 游戲組成。它們需要復雜的策略、規劃和長期 credit 分配，這使得 AI 智能體難以精通。在過去的十年中，已有數百種 RL 算法在該基準上進行了評估，其中包括 MuZero 和 Dreamer。

為了觀察直接從該基準中發現的規則能有多強大，該團隊元訓練 (meta-trained) 了一個 RL 規則，命名為 Disco57，并在同樣的 57 款游戲上對其進行了評估（見下圖 a）。

Disco57 的各個實驗基準上的表現

在此評估中，該團隊使用的網絡架構的參數數量與 MuZero 使用的數量相當。這是一個比發現過程中使用的網絡更大的網絡；因此，被發現的 RL 規則必須能泛化到這種設置。Disco57 取得了 13.86 的 IQM 分數，在 Atari 基準上超越了所有現有的 RL 規則，并且其運行效率 (wall-clock efficiency) 遠高于當前最先進的 MuZero（見下圖）。

這表明：該團隊的新方法可以從此類具有挑戰性的環境中自動發現強大的 RL 規則。

泛化能力

該團隊進一步研究了 Disco57 的泛化能力，方法是在一系列其在發現過程中從未接觸過的留存基準上對其進行評估。

這些基準包括未曾見過的觀測和動作空間、多樣化的環境動態、各種獎勵結構以及未曾見過的智能體網絡架構。元訓練的超參數僅在訓練環境（即 Atari）上進行了調整，以防止該規則被隱式地針對保留基準進行優化。

在 ProcGen 基準上的結果顯示，Disco57 優于所有現有的已發表方法，包括 MuZero 和 PPO，盡管它在發現期間從未與 ProcGen 環境交互過。ProcGen 由 16 個程序生成的 2D 游戲組成。

此外，Disco57 也在 Crafter 上取得了有競爭力的表現，在 Crafter 中智能體需要學習廣泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑戰賽的排行榜上獲得了第 3 名，該比賽有 40 多個團隊參加。

與比賽中排名靠前的提交智能體不同，Disco57 沒有使用任何領域特定知識來定義子任務或進行獎勵塑造 (reward shaping)。為了進行公平比較，該團隊使用與 Disco57 相同的設置，通過 IMPALA 算法訓練了一個智能體。IMPALA 的表現要弱得多，這表明 Disco57 發現了一種比標準方法更高效的 RL 規則。

除了環境之外，Disco57 在評估中還對一系列智能體特定設置（如網絡大小、重放比例 (replay ratio) 和超參數）表現出了魯棒性。

復雜多樣的環境

為了理解復雜多樣的環境對于發現過程的重要性，該團隊使用額外的環境進一步擴大了元學習的規模。

具體來說，該團隊使用了由 Atari、ProcGen 和 DMLab-30 基準組成的 103 個更具多樣性的環境，發現了另一個規則 Disco103。該規則在 Atari 基準上表現相似，同時之前所示的每一個已見和未見的基準上都提高了分數。特別是，Disco103 在 Crafter 上達到了人類水平的表現，并在 Sokoban 上接近了 MuZero 的 SOTA 性能。

這些結果表明，用于發現的環境集越復雜、越多樣化，發現的規則就越強大、越通用，即使在發現期間未曾見過的保留環境上也是如此。與 Disco57 相比，發現 Disco103 除了環境集不同之外，不需要對發現方法進行任何更改。這表明發現過程本身是穩健的、可擴展的和通用的。

為了進一步研究使用復雜環境的重要性，該團隊在 57 個從先前工作 9 擴展而來的網格世界 (grid-world) 任務上運行了該團隊的發現過程，使用了與 Disco57 相同的元學習設置。新規則在 Atari 基準上的表現明顯更差（見下圖 c）。

這驗證了該團隊關于直接從復雜且具有挑戰性的環境中進行元學習的重要性的假設。雖然使用這樣的環境至關重要，但并不需要精心策劃正確的環境組合；該團隊只是簡單地使用了文獻中流行的基準。

效率與可擴展性

為了進一步了解該團隊方法的可擴展性和效率，該團隊在發現過程中評估了多個 Disco57（見上圖 a）。最佳規則是在每個 Atari 游戲約 6 億步 (內發現的，這相當于在 57 個 Atari 游戲上僅進行了 3 次實驗。這可以說比手動發現 RL 規則更有效率，后者通常需要執行更多的實驗，此外還要花費人類研究員的時間。

此外，隨著用于發現的 Atari 游戲數量的增加，DiscoRL 在未見過的 ProcGen 基準上表現得更好（見上圖 b），這表明最終得到的 RL 規則隨著用于發現的環境數量和多樣性的增加而表現出良好的擴展性。換句話說，被發現規則的性能是數據（即環境）和計算量的函數。

發現新預測的效果

為了研究被發現的預測 (圖 1b 中的 y, z) 其語義的效果，該團隊通過改變智能體的輸出（包含或不包含某些類型的預測）來比較不同的規則。上圖 c 中的結果表明，使用價值函數可極大地改善發現過程，這突顯了 RL 這一基本概念的重要性。

另一方面，上圖 c 的結果也表明，在預定義預測之外發現新預測語義（ y 和 z ）的重要性?？偟膩碚f，與先前的工作相比，擴大發現的范圍是至關重要的。在下一節中，該團隊將提供進一步的分析，以揭示發現了哪些語義。

分析

定性分析

該團隊以 Disco57 為案例，分析了被發現規則的性質（見下圖）。

從定性上看，被發現的預測在諸如收到獎勵或策略熵發生變化等顯著事件之前會出現峰值（圖 a）。

該團隊還通過測量與觀測的每個部分相關的梯度范數，研究了觀測中的哪些特征會導致元學習的預測產生強烈反應。圖 b 的結果顯示，元學習的預測傾向于關注未來可能相關的物體，這與策略和價值函數所關注的地方不同。這些結果表明，DiscoRL 已經學會了在一個適度的范圍內識別和預測顯著事件，從而補充了諸如策略和價值函數等現有概念。

信息分析

為了證實定性分析的發現，該團隊進一步研究了預測中包含哪些信息。該團隊首先在 10 款 Atari 游戲上從 DiscoRL 智能體收集數據，并訓練一個神經網絡，使其從被發現的預測、策略或價值函數中預測該團隊感興趣的量。

圖 c 中的結果顯示，與策略和價值相比，被發現的預測包含更多關于即將到來的高額獎勵和未來策略熵的信息。這表明，被發現的預測可能捕獲了策略和價值未能很好捕獲的、與任務相關的獨特信息。

引導機制的涌現

該團隊還發現了 DiscoRL 使用引導 (bootstrapping) 機制的證據。當元網絡在未來時間步的預測輸入受到擾動時，它會強烈影響當前的目標圖 d）。這意味著未來的預測被用來構建當前預測的目標。

事實證明，這種引導機制和被發現的預測對于性能至關重要（圖 e）。如果在計算 y 和 z 的目標時，將輸入到元網絡的 y 和 z 設置為零（從而阻止引導），性能會大幅下降。如果將 y 和 z 的輸入設置為零以計算包括策略目標在內的所有目標，性能會進一步下降。這表明，被發現的預測被大量用于為策略更新提供信息，而不僅僅是作為輔助任務。

總結

讓機器能夠自己發現學習算法是人工智能中最有前途的想法之一，因為它具有開放式自我改進的潛力。

這項工作朝著機器設計的強化學習算法邁出了重要一步，這些算法在具有挑戰性的環境中可以與一些最佳的人工設計算法相媲美，甚至超越它們。

該團隊還表明，隨著發現的規則接觸到更多樣化的環境，它會變得更強、更通用。這表明，未來高級人工智能的 RL 算法設計，可能會由那些能夠隨數據和計算資源有效擴展的機器來主導。

責任編輯：張燕妮來源：機器之心

AlphaGo 強化學習算法 AI

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

欧美在线高清视频| 97色在线观看免费视频| 中文字幕在线免费专区| 97久久精品人人做人人爽50路| 91免费视频黄| 美女诱惑一区二区| 精品日韩在线播放| 高清不卡一二三区| 欧日韩免费视频| 99久久久精品| 激情五月亚洲色图| 久久亚洲精华国产精华液| 欧美污视频网站| 91日韩在线专区| 一本久道中文无码字幕av| 国产精品剧情在线亚洲| 石原莉奈一区二区三区高清在线| 亚洲高清久久久| 又爽又大又黄a级毛片在线视频| 欧美一区二区三区啪啪| bbw在线视频| 日韩中文在线观看| 国产成人精品亚洲线观看| 欧美一级大片在线免费观看| 日韩精品四区| 九九九热999| 国产一区日韩二区欧美三区| 欧美精品色婷婷五月综合| 亚洲免费观看高清完整版在线观看| 麻豆影视在线观看| 欧美日本一道本| 日韩伦理三区| 欧洲午夜精品久久久| 亚洲一级影院| 农民人伦一区二区三区| 亚洲在线免费播放| 日本一级理论片在线大全| 亚洲一品av免费观看| 欧美绝顶高潮抽搐喷水合集| 亚洲iv一区二区三区| 免费成人av资源网| 免费观看成人在线视频| 日韩欧美在线字幕| 国产又色又爽又黄刺激在线视频| 久久精品一区中文字幕| 久久一区二区三区电影| 麻豆中文字幕在线观看| 中文字幕一区二区三区在线播放 | h色视频在线观看| 欧美日韩免费视频| 亚洲播播91| 国产精品av网站| 奇米影视一区二区三区小说| 青青草原成人网| 91黄色免费看| 亚洲欧美综合久久久久久v动漫| 国产精品视频久久| 久久国产精品99久久久久久老狼| 丁香激情视频| 亚洲跨种族黑人xxx| 成人情趣视频网站| avove在线观看| 欧美激情视频给我| 日韩不卡免费视频| 亚洲精品中字| 久久尤物电影视频在线观看| 爆乳熟妇一区二区三区霸乳| 亚洲影视在线| 欧美专区日韩视频| 一区二区三区高清视频在线观看| 在线日韩中文字幕| 欧美男男激情freegay| 日韩免费观看高清完整版| 精品国产鲁一鲁****| 成人动漫视频在线观看免费| 97se狠狠狠综合亚洲狠狠| 免费在线观看一级毛片| 另类少妇人与禽zozz0性伦| 狠狠干综合网| 成年人在线观看视频免费| 日韩免费一区二区| 久久美女精品| 国产成人精品无码播放| 精品日本一线二线三线不卡| 日韩欧美国产精品综合嫩v| 国产亚洲欧美在线视频| 日韩欧美国产一区二区在线播放| 沈樵精品国产成av片| 国产情侣第一页| 欧美精品少妇一区二区三区| 欧美激情极品| 男人添女人下部高潮视频在观看| 欧美精品久久一区二区三区| 欧洲杯什么时候开赛| av免费在线播放网站| 日韩av在线免费播放| 欧美欧美全黄| 在线手机福利影院| www.日韩视频| 国产精品88888| 午夜伦理大片视频在线观看| 1卡2卡3卡精品视频| 亚洲欧美偷拍三级| 国产精品一区二区精品视频观看| 精品视频免费观看| 欧美日韩日本国产| 婷婷成人影院| 成人免费xxxxx在线视频| 亚洲精品中文字幕av| 亚洲欧美日韩国产一区| 天堂在线中文字幕| 国产精品xxxxx| 国产精品丝袜一区| 视频国产精品| 国产精品天天av精麻传媒| 中文字幕日韩欧美在线视频| 久久国产婷婷国产香蕉| 亚洲卡一卡二| 日本一区二区三区精品视频| 欧美一三区三区四区免费在线看| 欧美三区不卡| 成人免费在线电影| 国产精品免费观看高清| 在线观看91视频| 欧美日韩国产综合网| 久香视频在线观看| 国产精品一区视频网站| 欧洲激情一区二区| 欧美日本一区二区视频在线观看 | 狠狠躁夜夜躁人人躁婷婷91| 婷婷亚洲精品| 国产偷激情在线| 91精品国产高清自在线| 亚洲人成人一区二区在线观看 | 色噜噜狠狠色综合网图区| 国产一区视频网站| 日本成人福利| 国产xxxxx在线观看| 色综合导航网站| 国产精品国产三级国产aⅴ入口| 欧美a一欧美| 最新理论片影院| 91久久精品视频| 欧美日产国产精品| 免播放器亚洲一区| 91亚洲精品| 妞干网在线观看| 国产精品亚洲网站| 欧美日韩中文字幕精品| 琪琪一区二区三区| vam成人资源在线观看| 色婷婷综合网站| 成人写真福利网| 日韩一区二区精品葵司在线 | 亚洲综合久久久| 欧美黄色一区二区| bt在线麻豆视频| 男人天堂成人网| 欧美美女操人视频| 亚洲一区二区在线观看视频| 亚洲二区免费| 成人欧美一区二区三区的电影| 黄色片视频在线免费观看| 热久久这里只有| 欧美巨大另类极品videosbest | 日本精品一区二区三区高清久久日本精品一区二区三区不卡无字幕 | 午夜精品一区二区三区国产| 98在线视频| 国产对白在线播放| 97精品国产91久久久久久| 狠狠干狠狠久久| 久久精品国产精品青草| 风间由美性色一区二区三区四区 | 国产aaa精品| 欧美日韩一区二区三区高清 | 韩国成人二区| 久久久精品麻豆| 999国产在线| 伊人一区二区三区久久精品 | 少妇一级淫免费播放| 91夜夜未满十八勿入爽爽影院| 亚洲黄色www| 国产精品久久久久婷婷| 一本色道久久综合| 国产高清日韩| 自拍视频在线播放| 北条麻妃在线视频| 国产精品成人观看视频免费| 久久九九国产精品怡红院 | 夜夜嗨av一区二区三区四区 | 精品丝袜一区二区三区| 一区二区三区日本| 久久综合网络一区二区| 外国成人在线视频| 91九色在线播放| 99re6热在线精品视频播放| 欧美在线观看视频免费| 91九色国产在线| 欧美精品在线观看91| 欧美一区二区三区在线视频|

<kbd id="vqnsc"><acronym id="vqnsc"></acronym></kbd>

<var id="vqnsc"></var>

<fieldset id="vqnsc"><optgroup id="vqnsc"></optgroup></fieldset>

<mark id="vqnsc"></mark>