国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

用動作分塊突破RL極限,伯克利引入模仿學習,超越離線/在線SOTA

人工智能 新聞
近日,加州大學伯克利分校的研究者提出了一種名為?Q-chunking?的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

如今,強化學習(Reinforcement Learning,RL)在多個領域已取得顯著成果。

在實際應用中,具有長時間跨度和稀疏獎勵特征的任務非常常見,而強化學習方法在這類任務中的表現仍難令人滿意。

傳統強化學習方法在此類任務中的探索能力常常不足,因為只有在執行一系列較長的動作序列后才能獲得獎勵,這導致合理時間內找到有效策略變得極其困難。

假如將模仿學習(Imitation Learning, IL)的思路引入強化學習方法,能否改善這一情況呢?

模仿學習通過觀察專家的行為并模仿其策略來學習,通常用于強化學習的早期階段,尤其是在狀態空間和動作空間巨大且難以設計獎勵函數的場景。

近年來,模仿學習不僅在傳統的強化學習中取得了進展,也開始對大語言模型(LLM)產生一定影響。近日,加州大學伯克利分校的研究者提出了一種名為 Q-chunking 的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

該方法主要解決兩個核心問題:一是通過時間上連貫的動作序列提升探索效率;二是在避免傳統 n 步回報引入偏差的前提下,實現更快速的值傳播。

image.png

  • 論文標題:Reinforcement Learning with Action Chunking
  • 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
  • 代碼地址:https://github.com/ColinQiyangLi/qc

如下圖 1 左所示,Q-chunking(1)使用動作分塊來實現快速的價值回傳,(2)通過時間連貫的動作進行有效探索。圖 1 右中,本文方法首先在離線數據集上進行 100 萬步的預訓練(灰色部分),然后使用在線數據更新,再進行另外 100 萬步的訓練(白色部分)。

image.png

問題表述與研究動機

Q-chunking 旨在解決標準強化學習方法在復雜操作任務中存在的關鍵局限性。

在傳統強化學習中,智能體在每一個時間步上逐一選擇動作,這常常導致探索策略效率低下,表現為抖動、時間不連貫的動作序列。這一問題在稀疏獎勵環境中尤為嚴重 —— 在此類環境中,智能體必須執行較長的、協調一致的動作序列才能獲得有效反饋。

研究者提出了一個關鍵見解:盡管馬爾可夫決策過程中的最優策略本質上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時間上擴展的動作中顯著受益。這一觀察促使他們將「動作分塊」這一原本主要用于模仿學習的策略引入到時序差分學習中。

該方法特別面向離線到在線的強化學習場景(offline-to-online RL),即智能體先從預先收集的數據集中進行學習,再通過在線交互進行微調。這一設定在機器人應用中尤為重要,因為在線數據采集成本高且可能存在安全風險。

方法概覽

Q-chunking 將標準的 Q-learning 擴展至時間擴展的動作空間,使策略不再僅預測單一步驟的動作,而是預測連續 h 步的動作序列。該方法主要包含兩個核心組成部分:

擴展動作空間學習

傳統方法學習的是針對單步動作的策略 π(a? | s?) 和 Q 函數 Q (s?, a?),而 Q-chunking 學習的是:

* 塊狀策略(Chunked Policy):π_ψ(a?:??? | s?)

* 塊狀 Q 函數(Chunked Q-function):Q_θ(s?, a?:???)

核心創新體現在時間差分損失(TD loss)的構造上。塊狀 Q 函數的更新方式如下:

image.png

該形式實現了無偏的 h 步的值傳播,因為 Q 函數以整個動作序列作為輸入,從而消除了傳統 n 步回報中存在的離策略偏差(off-policy bias)。

行為約束

為了保證時間上的連貫性探索,并有效利用離線數據,Q-chunking 在擴展動作空間中對學習到的策略施加了行為約束,使其保持接近離線數據分布。該約束表達如下:

image.png

其中,D 表示一種距離度量方法,π_β 是來自離線數據集的行為策略。

算法實現

研究者展示了Q-chunking框架的兩種實現方式:

QC(帶有隱式 KL 約束的 Q-chunking)

該分支通過「從 N 個中選擇最優」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:

1. 在離線數據上訓練一個流匹配行為策略 f_ξ(?|s)

2. 對于每個狀態,從該策略中采樣 N 個動作序列(action chunks)

3. 選擇具有最大 Q 值的動作序列:a* = arg max_i Q (s, a_i)

4. 使用該動作序列進行環境交互與 TD 更新

QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)

該實現基于 FQL(Flow Q-learning)框架:

1. 保持一個獨立的噪聲條件策略 μ_ψ(s, z)

2. 訓練該策略以最大化 Q 值,并通過正則項使其靠近行為策略

3. 使用一種蒸餾損失函數,對平方的 2-Wasserstein 距離進行上界估計

4. 引入正則化參數 α 來控制約束強度

實驗設置及結果

關于實驗環境和數據集,研究者首先考慮 6 個稀疏獎勵的機器人操作任務域,任務難度各不相同,包括如下:

來自 OGBench 基準的 5 個任務域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個任務域包含 5 個任務;來自 robomimic 基準中的 3 個任務。

對于 OGBench,研究者使用默認的「play-style」數據集,唯獨在 cube-quadruple 任務中,使用了一個規模為 1 億大小的數據集。

關于基線方法比較,研究者主要使用了以加速「價值回傳」為目標的已有方法,以及此前表現最好的「離線到在線」強化學習方法,包括 BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC。

下圖 3 中展示了 Q-chunking 與基線方法在 5 個 OGBench 任務域上的整體性能表現,下圖 4 中展示了在 3 個 robomimic 任務上的單獨性能表現。其中在離線階段(圖中為灰色),QC 表現出具有競爭力的性能,通常可以比肩甚至有時超越了以往最優方法。而在在線階段(圖中為白色),QC 表現出極高的樣本效率,尤其是在 2 個最難的 OGBench 任務域(cube-triple 和 quadruple)中,其性能遠超以往所有方法(特別是 cube-quadruple 任務)。

image.png

image.png

下圖 5 為消融實驗,比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報的基線方法(BFN-n 和 FQL-n)。這些 n 步回報基線方法沒有利用時間擴展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實際上,它們的表現甚至常常不如 1 步回報的基線方法 BFN 和 FQL,這進一步突顯了在時間擴展動作空間中進行學習的重要性。

image.png

接下來探討的問題是:為什么動作分塊有助于探索?研究者在前文提出了一個假設:動作分塊策略能夠生成在時間上更連貫的動作,從而帶來更好的狀態覆蓋和探索效果。

為了進行實證,他們首先可視化了訓練早期 QC 與 BFN 的末端執行器運動軌跡,具體如下圖 7 所示??梢钥吹?,BFN 的軌跡中存在大量停頓(在圖像中心區域形成了一個大而密集的簇),特別是在末端執行器下壓準備抓取方塊時。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執行器空間中的狀態覆蓋更加多樣化。

為了對動作的時間連貫性進行定量評估,研究者在訓練過程中每 5 個時間步記錄一次 3D 末端執行器位置,并計算相鄰兩次位置差向量的平均 L2 范數。如果存在較多停頓或抖動動作,該平均范數會變得較小,因此可以作為衡量動作時間連貫性的有效指標。

正如圖 7(右)所示,在整個訓練過程中,QC 的動作時間連貫性明顯高于 BFN。這一發現表明,QC 能夠提高動作的時間連貫性,從而解釋了其更高的樣本效率。

image.png

更多細節內容請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-05-06 15:31:55

智能模型AI

2025-07-07 13:50:56

AI編程算法

2025-01-22 15:21:00

2024-03-26 15:43:00

訓練數據機器人

2024-01-29 13:03:00

框架3DHM視頻

2021-11-29 16:12:38

AI數據強化學習

2023-08-15 14:18:19

智能研究

2025-07-02 08:40:00

智能體AI模型

2024-08-19 14:05:00

2022-03-28 13:25:42

AI扶貧機器之心

2023-06-21 13:20:14

系統模型

2025-02-17 09:33:00

AI算法模型

2025-08-19 02:00:00

AI講師教育

2024-09-25 09:37:16

2024-11-29 09:18:01

2017-04-25 10:44:02

網利寶

2025-09-02 10:14:35

2023-09-25 12:42:00

AI數據

2021-01-04 09:18:36

機器人人工智能系統
點贊
收藏

51CTO技術棧公眾號

国产亚洲一区字幕| 欧美喷水视频| 亚洲成人第一页| 国产91视频一区| 免费成人av| 国产一区二区三区在线观看视频| 一级毛片免费看| 国产一区三区三区| 99超碰麻豆| 日韩视频1区| 精品国产网站在线观看| 中国国产一级毛片| 久久综合久久综合九色| 小说区图片区图片区另类灬| 色男人天堂综合再现| 九九久久综合网站| 欧美另类老肥妇| 91黄色在线观看| 日本桃色视频| 久久在线免费观看| 亚洲国产一区二区精品视频 | 成人短片线上看| 国产一区二区三区四区福利| 日本免费在线视频| 欧美日韩亚洲系列| 国产私人影院| 国产精品日日摸夜夜摸av| 亚洲精品无码国产| 国内久久婷婷综合| 日本福利一区二区三区| 国产精品老牛| 精品久久久久久乱码天堂| 色欧美自拍视频| 国产精品视频精品视频| 国产一区二区三区不卡视频网站| 国模精品视频一区二区三区| 国产精品麻豆| 九九久久久久99精品| 日日夜夜亚洲| 另类色图亚洲色图| 国产一区二区三区视频在线| 色妞一区二区三区| 欧美男男gaygay1069| 在线观看日韩欧美| 欧美美女被草| 欧美精品videossex88| 国产精品22p| 久久精品国产**网站演员| 欧美性生交xxxxxdddd| 爽爽视频在线观看| 同产精品九九九| 国产网站在线播放| 在线观看日韩国产| 国产一二区在线观看| 国产综合在线观看视频| 欧美亚洲一区| 在线观看欧美| 亚洲码在线观看| 蜜桃视频在线观看免费视频| 亚洲欧美日韩高清| 成人午夜一级| 性欧美亚洲xxxx乳在线观看| 午夜先锋成人动漫在线| 成人性生交大片免费看小说| 91精品天堂福利在线观看| 激情小说网站亚洲综合网| 日本大胆欧美人术艺术动态 | 国产精品高清亚洲| 麻豆免费网站| 91国偷自产一区二区开放时间 | 日韩欧美一区三区| 国产精品视频免费看| 在线播放av网站| 欧美mv日韩mv国产网站| 激情小说亚洲| 奇门遁甲1982国语版免费观看高清| 清纯唯美日韩| 日本免费一区二区三区| 99精品久久99久久久久| 日本a级黄色| 日韩欧美你懂的| 亚洲精品一区二区三区在线| 91久久精品久久国产性色也91| 日本最新不卡在线| 国产精品涩涩涩视频网站| 亚洲一二三区视频在线观看| 日本蜜桃在线观看| 久久影视免费观看| 亚洲女同中文字幕| 加勒比成人在线| 天天综合色天天综合色h| 美国毛片一区二区三区| 在线观看高清免费视频| 欧美视频精品在线| 91麻豆精品国产综合久久久 | 激情综合网址| 日本国产在线播放| 精品人伦一区二区三区蜜桃网站| 爱啪啪综合导航| 欧美在线视频一区| 首页亚洲欧美制服丝腿| 色婷婷亚洲十月十月色天| 日韩女优视频免费观看| 国产99亚洲| 国产 日韩 亚洲 欧美| 欧美性生活久久| 911亚洲精品| 中国一区二区三区| 欧美日韩精品在线观看| 亚洲视频资源| 日本一区网站| 亚洲国产综合在线| 一区在线不卡| 日韩尤物视频| 欧美日韩日本国产| 91成人午夜| 欧美另类videos| 欧美综合在线视频| 理论片一区二区在线| 中文字幕不卡每日更新1区2区| 欧美日韩亚洲精品一区二区三区| 欧美久久一区二区三区| 亚洲精美视频| 欧美性生活大片视频| 国产精品嫩草影院在线看| 国产日本在线播放| 日韩精品一区二区三区在线观看 | 国产精品av免费| 一本大道久久a久久综合婷婷| 亚洲网址在线观看| 青青草原国产免费| 精品视频在线视频| 欧美精品一区二区三区中文字幕 | **网站欧美大片在线观看| 欧美日韩中文国产| 亚洲伊人伊成久久人综合网| 久久国产精品一区二区三区| 亚洲五码中文字幕| 国产毛片久久久| 国产精品亚洲αv天堂无码| 亚洲精品国偷自产在线99热 | 国产精品少妇在线视频| 欧美精品一区二区三区一线天视频| 66国产精品| eeuss一区| 国产精品久久久久久久久久99 | 波多野结衣中文在线| 国产经典一区二区三区| 精品国产91久久久| 精品国产欧美日韩| 男捅女免费视频| 午夜精品在线观看| 国产欧美日韩激情| 99久久这里有精品| 97视频在线免费| 深夜成人在线观看| 豆国产96在线|亚洲| 亚洲十八**毛片| 日本黄色播放器| 精品亚洲男同gayvideo网站| 久久精品国产秦先生| 草草视频在线| 秋霞在线一区二区| 亚洲午夜久久久久久久| 国产精品白丝jk黑袜喷水| 激情都市亚洲| 美女黄色免费看| 国产午夜精品一区理论片飘花| 国内成人自拍视频| av成人在线看| 日日碰狠狠躁久久躁婷婷| 久久久久久久久久久亚洲| 亚洲欧洲精品天堂一级| 日韩欧美不卡| av在线免费观看网| 日韩视频在线观看国产| 亚洲全黄一级网站| 91在线观看地址| 外国成人在线视频| 桃花色综合影院| 热舞福利精品大尺度视频| 亚洲国产日韩欧美在线图片| 成人精品gif动图一区| 美女主播精品视频一二三四| 日韩欧美亚洲系列| 欧美日韩一区二区视频在线观看| 亚洲精品美女视频| 国产日本欧美一区二区| 日韩在线二区| 欧美妇女性影城| 亚洲午夜精品久久久久久app| а天堂中文在线官网| www.国产在线视频| 992tv成人免费影院| 日韩欧美精品网址| 美腿丝袜在线亚洲一区| 精品中文在线| 国产人成在线观看| 99在线精品免费视频| 国产精品久久久精品|