国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

強化學習中的Transformer發展到哪一步了?清華、北大等聯合發布TransformRL綜述

人工智能 新聞
受監督學習的啟發,人們對把 Transformer 用于強化學習產生了濃厚的興趣。

強化學習(RL)為順序決策提供了一種數學形式,深度強化學習(DRL)近年來也取得巨大進展。然而,樣本效率問題阻礙了在現實世界中廣泛應用深度強化學習方法。為了解決這個問題,一種有效的機制是在 DRL 框架中引入歸納偏置。

在深度強化學習中,函數逼近器是非常重要的。然而,與監督學習(SL)中的架構設計相比,DRL 中的架構設計問題仍然很少被研究。大多數關于 RL 架構的現有工作都是由監督學習 / 半監督學習社區推動的。例如,在 DRL 中處理基于高維圖像的輸入,常見的做法是引入卷積神經網絡(CNN)[LeCun et al., 1998; Mnih et al., 2015];處理部分可觀測性(partial observability)圖像的常見做法則是引入遞歸神經網絡(RNN) [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來,Transformer 架構 [Vaswani et al., 2017] 展現出優于 CNN 和 RNN 的性能,成為越來越多 SL 任務中的學習范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構支持對長程(long-range)依賴關系進行建模,并具有優異的可擴展性 [Khan et al., 2022]。受 SL 成功的啟發,人們對將 Transformer 應用于強化學習產生了濃厚的興趣,希望將 Transformer 的優勢應用于 RL 領域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項研究,其中自注意力(self-attention)機制被用于結構化狀態表征的關系推理。隨后,許多研究人員尋求將自注意力應用于表征學習,以提取實體之間的關系,從而更好地進行策略學習 [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進行表征學習,之前的工作還使用 Transformer 捕獲多時序依賴,以處理部分可觀測性問題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規模數據集的能力而受到關注。受離線 RL 的啟發,最近的研究表明,Transformer 結構可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ,并推廣到多個任務和領域 [Lee et al., 2022; Carroll et al., 2022]。

實際上,在強化學習中使用 Transformer 做函數逼近器面臨一些特殊的挑戰,包括:

  • 強化學習智能體(agent)的訓練數據通常是當前策略的函數,這在學習 Transformer 的時候會導致不平穩性(non-stationarity);
  • 現有的 RL 算法通常對訓練過程中的設計選擇高度敏感,包括模型架構和模型容量 [Henderson et al., 2018];
  • 基于 Transformer 的架構經常受制于高性能計算和內存成本,這使得 RL 學習過程中的訓練和推理都很昂貴。

例如,在用于視頻游戲的 AI 中,樣本生成的效率(在很大程度上影響訓練性能)取決于 RL 策略網絡和估值網絡(value network)的計算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動強化學習領域發展,來自清華大學、北京大學、智源人工智能研究院和騰訊公司的研究者聯合發表了一篇關于強化學習中 Transformer(即 TransformRL)的綜述論文,歸納總結了當前的已有方法和面臨的挑戰,并討論了未來的發展方向,作者認為 TransformRL 將在激發強化學習潛力方面發揮重要作用。

圖片

論文地址:https://arxiv.org/pdf/2301.03044.pdf

圖片

論文的總體結構如下:

  • 第 2 章介紹了 RL 和 Transformer 的背景知識,然后簡要介紹了這兩者是如何結合在一起的;
  • 第 3 章描述了 RL 中網絡架構的演變,以及長期以來 RL 中阻礙廣泛探索 Transformer 架構的挑戰;
  • 第 4 章論文作者對 RL 中的 Transformer 進行了分類,并討論了目前具有代表性的方法;
  • 第 5 章總結并指出了未來潛在的研究方向。

核心內容從論文第 3 章開始,下面我們來看一下論文的主要內容。

RL 中的網絡架構

在介紹 TransformRL 的分類方法之前,論文回顧了 RL 中網絡架構設計的早期進展,并總結了其存在的挑戰。作者認為 Transformer 是一種先進的神經網絡架構,將有助于深度強化學習(DRL)的發展。

函數逼近器的架構

自 Deep Q-Network [Mnih et al., 2015] 的開創性工作以來,人們為 DRL 智能體的網絡架構做了許多努力。強化學習中網絡架構的改進主要分為兩類。 

一類是設計新的結構,結合 RL 歸納偏置來降低訓練策略或價值函數的難度。例如 [Wang et al. 2016] 提出決斗(dueling)網絡架構,其中一個網絡用于狀態價值函數,另一個用于狀態相關的行動優勢函數(action advantage function),這種架構設計結合了歸納偏置。

另一類是研究常用的神經網絡技術(如正則化、殘差連接(skip connection)、批歸一化)是否可以應用于 RL。例如,[Ota et al. 2020] 發現在使用在線特征提取器增強狀態表征的同時增加輸入維度,會有助于提高 DRL 算法的性能和樣本效率。[Sinha et al. 2020] 為 DRL 智能體提出了一種深度密集架構,使用殘差連接進行有效學習,并使用歸納偏置來緩解數據處理不平等問題。[Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表征學習來改善大型網絡的信息流和梯度。最近,由于 Transformer 的優越性能,研究人員嘗試將 Transformer 架構應用于策略優化算法,但發現普通的 Transformer 設計無法在 RL 任務中達到理想的性能 [Parisotto et al., 2020]。

面臨的挑戰

雖然過去幾年基于 Transformer 的架構在 SL 領域取得了諸多進展,但將 Transformer 應用于 RL 并不簡單。實際上,這存在多個特有的挑戰。

從 RL 的角度看,許多研究指出現有的 RL 算法對深度神經網絡的架構非常敏感 [Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先,RL 中數據收集和策略優化之間的范式交替導致訓練的不平穩。其次,RL 算法通常對訓練過程中的設計選擇高度敏感。[Emmons et al. 2021] 證明仔細選擇模型架構和正則化對于 DRL 智能體的性能至關重要。

從 Transformer 的角度看,基于 Transformer 的架構存在內存占用大、延遲高的問題,這阻礙了它們的高效部署和推理。最近,許多研究圍繞原始 Transformer 架構對計算和內存效率進行改進,但其中大部分工作都集中在 SL 領域。 

在 RL 領域,Parisotto 和 Salakhutdinov 提出把基于大容量 Transformer 的學習器模型轉變為小容量的 actor 模型,以避免 Transformer 的高推理延遲。然而,這種方法在內存和計算方面仍然很昂貴。目前,RL 社區還未充分探索高效或輕量級的 Transformer。

強化學習中的 Transformer

盡管 Transformer 已成為大多數監督學習研究的基礎模型,但由于前述挑戰,它在 RL 社區長期未得到廣泛應用。實際上,TransformRL 的大多數早期嘗試都將 Transformer 用于狀態表征學習或提供記憶信息(memory information),同時仍然將標準 RL 算法用于智能體學習,例如時序差分學習和策略優化。

因此,盡管引入 Transformer 作為函數逼近器,這些方法仍然受到傳統 RL 框架的挑戰。直到最近,離線 RL 使得從大規模離線數據中學習最優策略成為可能。受離線 RL 的啟發,最近的工作進一步將 RL 問題視作固定經驗的條件序列建模問題。這樣做有助于繞過傳統 RL 中的 bootstrapping error 挑戰,從而使 Transformer 架構釋放其強大的順序建模能力。

論文回顧了 TransformRL 的進展,并按分類展示現有方法。作者將現有方法分為四類:表征學習、模型學習、順序決策和通用智能體。圖 2 顯示相關分類的概覽。

圖片

用于表征學習的 Transformer

考慮到 RL 任務的順序性,使用 Transformer 編碼器模塊是合理的。事實上,RL 任務中的各種序列都需要處理,例如局部 per-timestep 序列(多實體序列 [Vinyals et al., 2019; Baker et al., 2019]、多智能體序列 [Wen et al., 2022])、時序序列([Parisotto et al., 2020; Banino et al., 2021])等。

局部 per-timestep 序列的編碼器

這種方法早期顯著的成功體現在使用 Transformer 處理智能體觀察到的可變數量實體的復雜信息。[Zambaldi et al. 2018a] 首先提出用多頭點積注意力捕獲結構化觀察的關系推理,隨后 AlphaStar [Vinyals et al., 2019] 實現了在具有挑戰性的多智能體環境(星際爭霸 II)中處理多實體觀察。在這種稱為實體 Transformer 的機制中,觀察結果以如下形式編碼:

圖片

其中 e_i 代表智能體對實體 i 的觀察,要么直接從整個觀察中切片,要么由實體 tokenizer 給出。

一些后續工作豐富了實體 Transformer 機制。[Hu et al. 2020] 提出了一種兼容的解耦策略,以明確地將行動與各種實體相關聯,并利用注意力機制進行策略解釋。為了實現具有挑戰性的 one-shot 視覺模仿,Dasari 和 Gupta [2021] 使用 Transformer 來學習專注于特定任務元素的表征。

類似于分散在觀察中的實體,一些研究利用 Transformer 來處理其他局部的 per-timestep 序列。Tang 和 Ha [2021] 利用 Transformer 的注意力機制來處理感知序列并構建一個置換不變性輸入策略。在不兼容的多任務 RL 中,[Kurin et al., 2020] 提出使用 Transformer 來提取形態域知識 。

時序編碼器

同時,用 Transformer 處理時序序列也是合理的。時序編碼器被用作存儲架構,

圖片

其中 o_t 表示智能體在時間 t 的觀察,Emb_0:t 表示從初始觀察到當前觀察的歷史觀察的嵌入。

在早期的工作中,[Mishra et al. 2018] 無法使用 vanilla Transformer 處理時序序列,并且發現它在某些特定任務中甚至比隨機策略表現更差。Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] 是第一個使用 Transformer 作為存儲架構來處理軌跡的有效方案。GTrXL 通過 Identity Map Reordering 修改 Transformer-XL 架構 [Dai et al., 2019],以提供從時序輸入到 Transformer 輸出的「skip」路徑,這可能有助于形成從一開始就穩定的訓練過程。[Loynd et al. 2020] 提出了一種用于長期依賴的記憶向量快捷機制,[Irie et al. 2021] 將線性 Transformer 與快速加權編程器(Fast Weight Programmer)相結合以獲得更好的性能。[Melo 2022] 提出使用自注意力機制來模擬基于存儲的元 RL 的存儲恢復。

雖然隨著存儲的增長和參數規模的擴大,Transformer 的性能優于 LSTM/RNN,但它在 RL 上的數據效率不佳。后續工作利用一些輔助自監督任務來促進學習 [Banino et al., 2021] 或使用預訓練的 Transformer 架構作為時序編碼器 [Li et al., 2022; Fan et al.,2022]。

用于模型學習的 Transformer

除了使用 Transformer 作為序列嵌入的編碼器,Transformer 架構還在基于模型的算法中作為環境模型的 backbone。與以單步觀察和行動為條件的預測不同,Transformer 使環境模型能夠預測以一定長度的歷史信息為條件的變換(transition)。

實際上,Dreamer 及其后續算法的成功 [Hafner et al., 2020, 2021; Seo et al., 2022] 已經在一些部分可觀察的環境或需要記憶機制的任務中證明了基于歷史信息的世界模型的優點。以歷史信息為條件的世界模型由一個捕獲抽象信息的觀察編碼器和一個學習潛在空間中變換的變換模型組成。

已有研究使用 Transformer 架構而不是 RNN 來構建基于歷史的世界模型。[Chen et al. 2022] 用基于 Transformer 的模型 TSSM(Transformer State-Space Model)替換 Dreamer 中基于 RNN 的循環狀態空間模型(RSSM)。IRIS(Imagination with autoRegression over an Inner Speech)[Micheli et al., 2022] 通過對 rollout 經驗的自回歸學習來學習基于 Transformer 的世界模型,而沒有像 Dreamer 那樣的 KL 平衡,并在 Atari [Bellemare et al., 2013] 上取得了很好的結果。

此外,還有研究嘗試用基于 Transformer 的世界模型做規劃。[Ozair et al. 2021] 驗證了使用 Transformer 變換模型進行規劃來完成隨機任務的有效性。[Sun et al. 2022] 提出了一種以目標為條件的 Transformer 變換模型,該模型在程序任務的視覺基礎規劃中是很有效的。

RNN 和 Transformer 都適合學習基于歷史信息的世界模型。然而,[Micheli et al. 2022] 發現與 Dreamer 相比,Transformer 架構是數據效率更高的世界模型。TSSM 的實驗結果表明,Transformer 架構在需要長期記憶的任務中表現出眾。

用于順序決策的 Transformer

除了融入到傳統 RL 算法中作為高性能架構以外,Transformer 還可以直接用作順序決策模型。這是因為可以把 RL 看作一個條件序列建模問題:生成可以產生高回報的行動序列。

圖片

鑒于 Transformer 在序列預測方面的優異準確性,Bootstrapped Transformer (BooT) [Wang et al., 2022] 提出通過 bootstrap Transformer 來生成數據,同時優化數據以進行順序決策。Bootstrapping Transformer 用于數據增強可以擴大離線數據集的數量和覆蓋范圍,從而提升性能。具體地說,BooT 比較了不同的數據生成方案和 bootstraping 方案,以分析 BooT 如何助力策略學習。結果表明,它可以生成與底層 MDP 一致的數據,而無需額外的約束。

用于通用智能體的 Transformer

Decision Transformer 已經在離線數據的各種任務中發揮巨大作用,有研究者開始考慮 Transformer 是否可以像 CV 和 NLP 領域那樣讓通用智能體解決多個不同任務或問題。

泛化到多個任務

一些研究者借鑒了 CV 和 NLP 中對大規模數據集進行預訓練的思想,并嘗試從大規模多任務數據集中抽象出通用策略。Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] 是 DT 的一個變體,該模型在由專家和非專家數據組成的多樣化數據集上學習 DT,并使用一組參數在多個 Atari 游戲上實現接近人類的水平。為了在非專家級數據集上獲得專家級的表現,MGDT 設計了專家行動推理機制,從 return-to-go 的先驗分布計算專家級的 return-to-go 后驗分布并根據貝葉斯公式預設專家級 return-to-go 的概率。

同樣,Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] 是 TT 的多任務擴展,利用稀疏激活模型,將 FFN 層替換為混合專家層,以實現高效的多任務離線學習。此外,SwitchTT 還采用分布式 trajectory 值估計器對值估計的不確定性進行建模。依靠這兩個增強功能,SwitchTT 在性能和訓練速度方面都比 TT 提升了很多。MGDT 和 SwitchTT 利用從多個任務和各種性能級策略中收集的經驗來學習通用策略。然而,構建大規模的多任務數據集并非易事。 

與 CV 和 NLP 中的大規模數據集通常使用來自互聯網的海量數據和簡單的人工標記不同,RL 中的順序決策數據總是缺少行動信息,并且不易標記。因此,[Baker et al. 2022] 提出了一種半監督方案,利用沒有行動信息的大規模在線數據,學習基于 Transformer 的逆向動態模型(IDM)。該模型利用對過去和未來的觀察來預測行動信息,能夠標記大量在線視頻數據。IDM 是在包含手動標記行動的小型數據集上學習的,并且足夠準確。

NLP 的許多已有工作證明了 prompt 在適應新任務方面的有效性,一些工作利用基于 DT 方法的 prompt 技術來實現快速適應。Prompt-based Decision Transformer (Prompt-DT) [Xu et al., 2022] 從少樣本(few-shot)演示數據集中采樣一系列變換作為 prompt,并將少樣本策略泛化到離線元 RL 任務上。[Reed et al. 2022] 進一步利用基于 prompt 的架構,通過在涵蓋自然語言、圖像、時間決策和多模態數據的超大規模數據集上進行自回歸序列建模來學習通用智能體(Gato)。Gato 能夠執行來自不同領域的一系列任務,包括文本生成和決策。

 [Laskin et al. 2022] 提出了算法蒸餾 (AD),以在單任務 RL 算法學習過程的 across-episode 序列上訓練 Transformer。因此,即使在新任務中,Transformer 也可以學會在自回歸生成過程中逐步改進其策略。

泛化到更廣泛領域

除了泛化到多個任務,Transformer 還是一個強大的「通用」模型,可以用于與順序決策相關的一系列領域。受 NLP 中掩碼語言建模(masked language modeling)[Devlin et al., 2018] 技術的啟發,[Carroll et al. 2022] 提出了 Uni [MASK],它將各種常用研究領域統一為 mask 推理問題,包括行為克隆、離線 RL、GCRL、過去 / 未來推理和動態預測。Uni [MASK] 比較了不同的 mask 方案,包括任務特定 mask、隨機 mask 和微調變體。結果表明,用隨機 mask 訓練的單個 Transformer 可以解決任意推理任務。

此外,[Reid et al. 2022] 發現,使用在語言數據集或包含語言模態的多模態數據集上預訓練的 Transformer 對 DT 進行微調是有益的。這表明,即使是來自非 RL 領域的知識也可以通過 transformer 進行 RL 訓練。

感興趣的讀者可以閱讀論文原文,了解更多研究細節。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-10 15:10:00

智能強化學習框架

2018-09-12 15:25:33

2025-05-08 09:10:30

2024-11-13 15:00:00

模型數據

2025-03-19 09:10:00

2023-04-27 09:41:47

2024-10-08 15:20:00

AI安全

2025-04-01 09:00:00

模型訓練開源

2023-01-16 14:55:00

強化學習

2025-09-01 14:16:40

AI開源模型

2022-11-02 14:02:02

強化學習訓練

2025-11-07 08:51:41

2024-10-12 17:14:12

2022-06-29 14:49:43

計算機視覺智能

2022-08-26 14:44:32

強化學習AI

2020-02-21 15:33:44

人工智能機器學習技術

2024-01-01 22:14:04

2018-11-14 10:28:38

AI數據科技

2025-07-01 09:07:00

2025-10-11 04:00:00

點贊
收藏

51CTO技術棧公眾號

久久这里精品| 一级毛片精品毛片| 国产日韩视频一区二区三区| 91影视免费在线观看| 手机在线理论片| 亚洲第一福利一区| 四虎4hu永久免费入口| 成人短片线上看| 久久国产精品久久久久久久久久| 免费**毛片在线| 偷窥国产亚洲免费视频| 免费无码不卡视频在线观看| 性一交一乱一区二区洋洋av| 国产精品第七十二页| 小说区图片区亚洲| 亚洲老女人av| 国产极品一区| 在线不卡中文字幕播放| heyzo在线观看| 99精品在线免费| 一区二区三区四区欧美日韩| 7777久久香蕉成人影院| 66m—66摸成人免费视频| 亚洲综合在线电影| 亚洲国产日韩欧美在线图片| 国产福利视频在线| 在线观看日韩电影| 噼里啪啦在线中文观看| 亚洲日本va午夜在线影院| 欧美成人高潮一二区在线看| 久久69国产一区二区蜜臀| 欧美日韩高清在线一区| 欧美精品97| 亚洲一区二区久久久久久| av一区二区在线播放| 45www国产精品网站| 波多野结衣一区二区三区免费视频| 亚洲天堂精品在线| 天堂√中文最新版在线| 亚洲精品一区久久久久久| 黄频免费在线观看| 亚洲精选一区二区| 欧美日韩女优| 久久视频免费观看| 色播一区二区| 97视频com| 国产香蕉视频在线观看| 国产精品私人影院| 亚洲一区二区三区在线免费观看| 欧美日韩一卡| 91九色综合久久| 国产精品对白久久久久粗| 欧美高清视频不卡网| 狠狠干狠狠久久| 偷偷要色偷偷| 狠狠综合久久av一区二区小说| 四虎最新地址发布| 亚洲午夜在线电影| 国产三区四区在线观看| 欧美艳星brazzers| 在线中文免费视频| 日韩精品在线第一页| 成人国产综合| 欧美激情一区二区三级高清视频| 好吊妞国产欧美日韩免费观看网站| 97人人模人人爽人人喊中文字| 日韩在线麻豆| 亚洲综合色噜噜狠狠| 黄色网址入口| 午夜视频一区在线观看| 成人精品一区二区三区校园激情| 国产乱码字幕精品高清av| 国产一二三四区在线观看| 99久久夜色精品国产网站| 久久这里只精品| 富二代精品短视频| 日韩av毛片| 久久综合伊人77777尤物| 日韩中出av| 久久亚洲高清| 亚洲三级网页| 成人中文字幕在线观看| 丝袜诱惑制服诱惑色一区在线观看| 一区二区三区四区国产| 国产日韩欧美精品综合| 日本福利片高清在线观看| 91在线观看污| 一级毛片免费视频| 日韩一区二区三区视频| 亚洲欧美在线成人| 国产精品久久97| 美腿丝袜亚洲一区| 亚洲无吗一区二区三区| 欧美日韩综合一区| 亚洲欧洲二区| 国产高清一区视频| av网站一区二区三区| 五月天天在线| 亚洲欧美一区二区在线观看| 亚洲人成小说| 亚洲精品福利在线| 蜜桃tv一区二区三区| 亚洲欧美激情四射在线日| 国产成人高清精品免费5388| 成人在线观看网址| 久久久久久久久蜜桃| 日本中文字幕在线视频| 一本大道av伊人久久综合| 无码播放一区二区三区| 亚洲一区二区黄色| 超碰成人av| 国产日韩精品电影| 成人av在线影院| 日韩精品成人av| 26uuu另类亚洲欧美日本一| 视频在线观看国产精品| 免费三级欧美电影| 色婷婷av一区二区三区久久| 国内一区二区三区| 手机在线免费观看毛片| 日韩欧美高清dvd碟片| 伊人久久大香线蕉无限次| 2025韩国大尺度电影| 亚洲国产视频网站| 国产亚洲久久| 中文字幕一区二区三区5566| 色94色欧美sute亚洲13| 日韩黄色网络| 男人日女人bb视频| 日韩精品视频中文在线观看| 欧美精品激情| 国产免费专区| 美女av一区二区三区| 精品制服美女久久| 黄色成人在线| 国产91精品入口17c| 亚洲成人资源网| 国产一区二区三区亚洲| 尤物av无码色av无码| 精品久久人人做人人爽| 欧美日韩亚洲三区| 亚洲图片欧美| 成人在线播放av| 亚洲黄色av一区| 小嫩嫩12欧美| 日本xxxxxx| 97视频在线播放| 国产欧美一区二区三区在线老狼| 四虎4545www精品视频| 伊人av成人| 亚洲国产高清福利视频| 日本伊人精品一区二区三区观看方式| eeuss影院www在线观看| 91嫩草在线| 欧美三级中文字| 极品尤物久久久av免费看| 黄色av网站在线| 成人精品一二区| 欧美日韩在线播放一区| 日韩在线二区| 在线国产一区二区三区| 91久久久久久久久久久| 欧美性jizz18性欧美| 一本一道久久a久久精品蜜桃| 色视频在线播放| 国产主播在线一区| 91福利视频在线| 亚洲日本成人| 欧美v亚洲v| 四虎免费在线观看视频| 国产亚洲成av人片在线观看桃| 大尺度一区二区| 日韩激情欧美| 成人18网站| 91精品久久久久久久久久另类 | 青青伊人久久| 日韩一级特黄毛片| 永久免费毛片在线播放不卡| 91在线观看高清| 亚洲瘦老头同性70tv| 中文在线播放| 久久国产精品久久精品国产| 日韩免费视频线观看| 精品影视av免费| 精品国产乱码久久久久久樱花| 色国产在线视频| 亚洲一区二区三区在线免费观看| 欧美日韩亚洲不卡| 激情综合网av| 欧美另类中文字幕| 翔田千里一区| 亚洲资源视频| 久久免费福利视频| 91福利精品视频| 国产91丝袜在线18| 国产欧美一区二区白浆黑人| 久久精品青青大伊人av| 日韩精品国产欧美| 日韩毛片视频| 理论电影国产精品|