国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

無需RLHF顯著提升GPT-4/Llama2性能,北大團隊提出Aligner對齊新范式

人工智能 新聞
對齊新范式:修正未對齊的答案比生成對齊的回答更容易。

背景

大語言模型(LLMs)雖展現出了強大的能力,但也可能產生不可預測和有害的輸出,例如冒犯性回應、虛假信息和泄露隱私數據,給用戶和社會造成傷害。確保這些模型的行為與人類意圖和價值觀相對齊,是一個緊迫的挑戰。

盡管基于人類反饋的強化學習(RLHF)提供了一種解決方案,但它面臨復雜的訓練架構、對參數的高敏感性,以及獎勵模型在不同數據集上的不穩定性等多重挑戰。這些因素導致 RLHF 技術實現難、奏效難、復現難。

為了克服這些挑戰,北京大學團隊提出了一種新的高效對齊范式 ——Aligner,其核心在于學習答案對齊與未對齊之間的修正殘差,從而繞過繁瑣的 RLHF 流程。

借鑒殘差學習和可擴展監督的思想,Aligner 通過簡單的復制和殘差修正步驟簡化了對齊過程,使用 Seq2Seq 模型學習隱式殘差,以優化對齊效果。

相較于 RLHF 需要訓練多個模型的復雜性,Aligner 僅通過在待對齊模型后附加一個額外模塊即可實現對齊,且所需計算資源主要取決于對齊效果的期望,并非上游模型的規模。實驗表明,使用 Aligner-7B 能顯著提高 GPT-4 的幫助性和安全性,分別增加了 17.5% 和 26.9%。

此外,利用 Aligner 框架,作者通過弱模型(Aligner-13B)監督信號增強強模型(Llama-70B)性能,實現了 weak-to-strong 泛化,為超級對齊提供了實踐方案。

圖片

  • 論文地址:https://arxiv.org/abs/2402.02416
  • 項目主頁 & 開源地址:https://aligner2024.github.io
  • 題目:Aligner : Achieving Efficient Alignment through Weak-to-Strong Correction

什么是 Aligner?

基于核心洞察:

Correcting unaligned answer is easier than generating aligned answers.

修正未對齊的回答要比生成對齊的回答容易。

作為一種高效的對齊方法,Aligner 具備以下優秀特性:

  • 作為一個自回歸 Seq2Seq 模型,Aligner 在問題-答案-修正后的答案(Query-Answer-Correction, Q-A-C)數據集上訓練,學習對齊與未對齊答案之間的差異,從而實現了更精準的模型對齊。例如,在對齊 70B LLM 時,Aligner-7B 大規模降低了訓練參數量,相較于 DPO 小 16.67 倍,比 RLHF 小 30.7 倍。
  • Aligner 范式實現了從弱到強的泛化,采用高較小參數量的 Aligner 模型監督信號微調參數量大的 LLMs ,顯著提升了強模型的性能。例如,利用 Aligner-13B 監督下微調 Llama2-70B,其幫助性和安全性分別提升了 8.2% 和 61.6%。
  • 由于 Aligner 即插即用的特性以及它對模型參數并不敏感,它能夠對齊如 GPT3.5、GPT4 和 Claude2,這些無法獲取參數的模型。僅一次訓練,Aligner-7B 對齊并提升了包括閉源、開源及安全 / 未安全對齊模型在內的 11 種模型的幫助性和安全性。其中 Aligner-7B 顯著提升了 GPT-4 的幫助性和安全性,分別提高了 17.5% 和 26.9%。

Aligner 總體性能表現

作者展現了各個尺寸的 Aligner(7B,13B,70B)在基于 API 的模型、開源模型(包括經過安全對齊和未經過安全對齊)均能提升性能表現。總體來說,隨著模型變大,Aligner 的性能逐步提升,并且修正時所能提供的信息密度逐漸增大,這也使得修正后的答案更加安全且具有幫助性。

圖片

怎么訓練一個 Aligner 模型?

1.Query-Answer (Q-A) 數據收集

作者從各種開源數據集中獲取 Query,包括 Stanford Alpaca、ShareGPT、HH-RLHF 以及其他用戶共享對話。這些問題經歷了重復模式去除和質量過濾的過程,用于后續的答案和更正的答案生成。未修正的回答則是使用各種開源模型生成的,如 Alpaca-7B、Vicuna-(7B,13B,33B)、Llama2-(7B,13B)-Chat, and Alpaca2-(7B,13B)。

2. 答案修正

作者使用 GPT-4、Llama2-70B-Chat 和人工標注來根據大語言模型的 3H 標準(幫助性、安全性、誠實性)來修正 Q-A 數據集中的答案。

對于已符合標準的答案,保持原樣。修改過程基于一系列定義明確的原則,從而為 Seq2Seq 模型的訓練建立了約束條件,重點在于提升回答的幫助性和安全性。答案的修正前后分布變化明顯,下圖清晰展示了修改對數據集的影響:

3. 模型訓練

基于上述過程,作者構建了新的修正數據集圖片,其中圖片表示用戶的問題,圖片是問題的原始答案,圖片是根據既定原則修正的答案。

模型訓練過程相對簡單。作者訓練一個由圖片參數化的條件 Seq2Seq 模型圖片,使得原始答案圖片重分布到對齊的答案。

基于上游大語言模型的對齊答案生成過程為:

圖片

訓練的 loss 如下:

圖片

其中第 2 項與 Aligner 參數無關,Aligner 的訓練目標可以推導為:

圖片

下圖動態地展示了 Aligner 的中間過程:

圖片

值得注意的是,Aligner 在訓練和推理階段都不需要訪問上游模型的參數。Aligner 的推理過程只需要獲取用戶的問題和上游大語言模型生成的初始答案,然后生成更符合人類價值觀的答案。

修正現有答案而不是直接回答,這使得 Aligner 能夠容易地與人類價值觀對齊,從而顯著降低了對模型能力的要求。

Aligner 與現有對齊范式對比

Aligner vs SFT

與 Aligner 相反,SFT 直接從 Query 語義空間創建到 Answer 語義空間的跨域映射,這個過程學習依賴于上游模型來推斷和模擬語義空間中的各種上下文,這比學習修正信號要難得多。

Aligner 訓練范式可以被認為是一種殘差學習(殘差修正)形式,作者在 Aligner 中創建 「復制(copy)+ 修正(correct)」學習范式。因此,Aligner 在本質上創建了從回答語義空間到修正的回答的語義空間的殘差映射,這兩個語義空間在分布上更接近。

為此,作者從 Q-A-C 訓練數據集中以不同比例構造了 Q-A-A 數據,訓練 Aligner 進行恒等映射學習(也稱為 copy mapping)(稱為預熱步驟)。在此基礎上,使用整個 Q-A-C 訓練數據集進行訓練,這種殘差學習范式,也被 ResNet 中采用用來解決堆疊過深的神經網絡導致的梯度消失的問題。實驗結果表明:當預熱比例為 20% 時,模型能夠獲得最佳表現。

Aligner vs RLHF

RLHF 通過在人類偏好數據集上訓練獎勵模型(RM),并利用這個獎勵模型來進行 PPO 算法微調 LLMs,從而使 LLMs 和人類偏好的行為相一致。

具體而言,獎勵模型需要將人類偏好數據從離散映射到連續的數值空間以進行優化,但是相較于在文本空間具有較強泛化能力的 Seq2Seq 模型,這類數值獎勵模型在文本空間的泛化能力較弱,從而導致了 RLHF 在不同的模型上效果不穩定。

而 Aligner 通過訓練一個 Seq2Seq 模型來學習對齊和未對齊答案之間的差異性(殘差),從而有效的避開了 RLHF 過程,并取得了比 RLHF 更具備泛化性的表現。

Aligner vs. Prompt Engineering

提示詞工程(Prompt Engineering )是激發 LLMs 能力的常見方法,然而這種方法存在著一些關鍵問題,如:難以設計 prompt,且需要針對不同模型進行不同設計,最終效果依賴于模型的能力,當模型能力不足以解決任務時,可能需要多次迭代,浪費上下文窗口,小模型的上下文窗口受限會影響到提示詞工程的效果,而對于大模型而言,占用過長的上下文極大增加了訓練的成本。

Aligner 本身可以支持任意模型的對齊,經過一次訓練可以對齊 11 類不同類型的模型,并且能夠不占用原模型的上下文窗口。值得注意的是,Aligner 可以與現有的提示詞工程方法無縫結合起來,達到 1+1>2 的效果。

總的來說:Aligner 展現出了以下顯著優勢:

1.Aligner 訓練更加簡單。相較于 RLHF 復雜的獎勵模型學習及基于該模型的強化學習(RL)微調過程,Aligner 的實現過程更為直接且易于操作。反觀 RLHF 中涉及的多項工程調參細節以及 RL 算法的固有不穩定性和超參數敏感性,Aligner 大大簡化了工程復雜度。

2.Aligner 訓練數據少且對齊效果明顯。基于 20K 數據訓練一個 Aligner-7B 的模型,可以提升 GPT-4 在幫助性方面 12% 以及安全性方面 26%,并提升 Vicuna 33B 模型 29% 的幫助性以及 45.3% 的安全性,而 RLHF 需要更多的偏好數據,并需要精細化的調參才有望達到這個效果。

3.Aligner 不需要接觸模型權重。雖然 RLHF 在模型對齊方面被證明有效,但依賴于對模型直接訓練。面對未開源的 API-based 模型如 GPT-4 及其在下游任務中的微調需求,RLHF 的適用性受限。相反,Aligner 無需直接操作模型原始參數,通過將對齊需求外置于一個獨立的對齊模塊中,實現了靈活的對齊方式。

4.Aligner 對模型類型無感。在 RLHF 框架下,針對不同模型(如 Llama2,Alpaca)的微調不僅需要重新收集偏好數據,還需在獎勵模型訓練及 RL 階段調整訓練參數。而 Aligner 通過一次性訓練,可以支持任意模型的對齊。例如,僅需要在修正數據集上訓練一次,Aligner-7B 可以對齊 11 種不同模型(包括開源模型、API 模型如 GPT),并在幫助性和安全性方面分別提升 21.9% 和 23.8% 性能。

5.Aligner 對訓練資源的需求更加靈活。RLHF 微調一個 70B 的模型仍然對計算資源有著極高的要求,需要數百個 GPU 卡才能進行。因為 RLHF 方法還需要額外加載與模型參數量相當的獎勵模型、Actor 模型及 Critic 模型。因此,就單位時間內的訓練資源消耗而言,RLHF 實際上需要比預訓練更多的計算資源。

相較之下,Aligner 提供了更為靈活的訓練策略,允許用戶根據自身的實際計算資源情況,靈活選擇 Aligner 的訓練規模。例如,針對一個 70B 模型的對齊需求,用戶可以根據實際可用的資源選擇不同規模的 Aligner 模型(7B、13B、70B 等),以實現目標模型的有效對齊。

這種靈活性不僅降低了對計算資源的絕對需求,也為用戶提供了在有限資源下進行高效對齊的可能性。

Weak-to-strong Generalization

圖片

Weak-to-strong generalization 討論的問題在于能否使用弱模型的標簽訓練強模型,使得強模型在性能上有所提升。OpenAI 使用這一類比旨在解決超對齊(SuperAlignment) 的問題,具體來說,他們使用真值標簽(groud truth)訓練弱模型。

OpenAI 的研究人員進行了一些初步實驗,例如在文本分類(text classfication)的任務上,訓練數據集被分為了兩部分,前半部分的輸入和真值標簽被用來訓練弱模型,而后半部分的訓練數據僅保留輸入,標簽由弱模型產生。在訓練強模型時僅使用弱模型產生的弱標簽為強模型提供監督信號。

使用真值標簽訓練弱模型是為了使弱模型獲得解決相應任務的能力,但是用于產生弱標簽的輸入和訓練弱模型的輸入并不相同。這種范式類似于 「教學」 的概念,即用弱模型來指導強模型。

作者基于 Aligner 的性質,提出了一種新穎的 weak-to-strong generalization 范式。

作者的核心觀點是讓 Aligner 充當 「站在巨人肩膀上的監督員」。與 OpenAI 直接監督「巨人」的方法不同,Aligner 將通過弱到強的修正,修正更強的模型在這一過程中提供更準確的標簽。

具體來說,在 Aligner 的訓練過程中,修正數據包含 GPT-4、人類標注員和更大的模型標注。隨后,作者使用 Aligner 在新的 Q-A 數據集上生成弱標簽(即修正);進而使用弱標簽對原模型進行微調。

實驗結果表明這一范式可以進一步提升模型的對齊表現。

實驗結果

Aligner vs SFT/RLHF/DPO

作者使用 Aligner 的 Query-Answer-Correction 訓練數據集,分別通過 SFT/RLHF/DPO 方法對 Alpaca-7B 進行微調。

進行性能評估時,使用開源的 BeaverTails 和 HarmfulQA 的測試 prompt 數據集,將微調后模型生成的回答與對原始 Alpaca-7B 模型的回答使用 Aligner 進行修正后產生的回答,在幫助性和安全性方面進行比較,結果如下:

圖片

實驗結果表明,Aligner 對比諸如 SFT/RLHF/DPO 這樣成熟的 LLM 對齊范式具有明顯的優勢,在幫助性和安全性這兩個指標上均有顯著領先。

分析具體的實驗案例,可以發現,使用 RLHF/DPO 范式微調的對齊模型,為了提升安全性可能更傾向于產生保守的回答,而在提升幫助性的過程中又無法兼顧安全性,導致回答中的危險信息增加。

Aligner vs Prompt Engineering

對比 Aligner-13B 與 CAI / Self-Critique 方法對同一上游模型的性能提升,實驗結果如下圖所示:Aligner-13B 對 GPT-4 在幫助性和安全性兩方面的提升,均高于 CAI/Self-Critique 方法,這說明 Aligner 范式相較于常用 prompt engineering 方法具有明顯優勢。

值得注意的是,實驗中僅在推理時使用 CAI prompts,以鼓勵其自我修改答案,這也是 Self-Refine 的形式之一。

圖片

除此之外,作者還進行了進一步探究,他們對使用 CAI 方法修正后的回答再經過 Aligner 進行修正,并將經過 Aligner 前后的回答進行直接比較,實驗結果如下圖所示。

圖片

Method A:CAI + Aligner Method B:CAI only

使用 Aligner 對 CAI 修正后的回答進行二次修正后,回答在不損失安全性的同時,在幫助性方面的獲得了極為顯著的提升。這說明 Aligner 不僅在單獨使用時具有很強的競爭力,還能與其他現有對齊方法結合,進一步提升其性能。

Weak-to-strong Generalization

圖片

Method:weak-to-strong 訓練數據集由(q,a,a′)三元組組成,其中 q 表示來自 Aligner 訓練數據集 - 50K 的問題,a 表示 Alpaca-7B 模型生成的答案,a′表示 Aligner-7B 給定的對齊答案(q,a)。與僅利用 a′作為基本事實標簽的 SFT 不同,在 RLHF 和 DPO 訓練中,a′被認為比 a 更好。

作者在新的 Q-A 數據集上用 Aligner 對原回答進行修正,將修正后的回答作為弱標簽,并用這些弱標簽作為監督信號訓練更大尺寸的模型。這一過程和 OpenAI 的訓練范式是類似的。

作者通過三種方法基于弱標簽對強模型進行訓練:SFT、RLHF 和 DPO。上表的實驗結果顯示,通過 SFT 微調上游模型時,Aligner-7B 和 Aligner-13B 的弱標簽在所有場景中都提高了 Llama2 系列強模型的性能。

展望:Aligner 潛在的研究方向

Aligner 作為一種創新的對齊方法,擁有巨大的研究潛力。在論文中,作者提出了幾種 Aligner 的應用場景,包括:

1. 多輪對話場景的應用。在多輪對話中,面對稀疏獎勵的挑戰尤為突出。在問答式對話(QA)中,通常只有在對話結束時才能獲得標量形式的監督信號。

這種稀疏性在多輪對話(例如連續的 QA 場景)中的問題會進一步放大,導致基于強化學習的人類反饋(RLHF)難以發揮效果。研究 Aligner 在改善多輪對話對齊效果方面的潛力,是一個值得深入探索的領域。

2. 人類價值向獎勵模型的對齊。在基于人類偏好的獎勵模型構建和大型語言模型(LLMs)微調的多階段過程中,確保 LLMs 與特定的人類價值(例如公平性、共情等)對齊面臨巨大挑戰。

通過將價值對齊任務交由模型外的 Aligner 對齊模塊處理,并利用特定語料訓練 Aligner,不僅為價值對齊提供了新的思路,還使 Aligner 能夠修正前置模型的輸出以反映特定的價值觀。

3.MoE-Aligner 的流式化和并行處理。通過將 Aligner 專門化處理并集成,可以創建更強大且全面的混合專家(MoE)Aligner,這種 Aligner 能夠滿足多重混合安全及價值對齊需求。同時,進一步提高 Aligner 的并行處理能力,以減少推理時間的損耗,是一個可行的發展方向。

4. 模型訓練過程中的融合。通過在特定的權重層后集成 Aligner 層,可以實現對模型訓練過程中輸出的實時干預。這種方法不僅能提高對齊效率,還有助于優化模型訓練流程,實現更高效的模型對齊。

團隊介紹

該工作由北京大學人工智能研究院 AI 安全與治理中心楊耀東課題組獨立完成。團隊深耕大語言模型的對齊技術,包括開源百萬級安全對齊偏好數據集 BeaverTails(NeurIPS 2023)、大語言模型的安全對齊算法 SafeRLHF(ICLR 2024 Spotlight),相關技術已被多個開源模型采納。撰寫業內首個人工智能對齊的全面性綜述并配套了資源網站 www.alignmentsurvey.com(點擊原文可直接跳轉),系統性的闡述了 Learning from Feedback、Learning under Distribution Shift,Assurance,Governance 四個視角下的 AI 對齊問題。該團隊關于對齊與超對齊的觀點被采編為 2024 年第 5 期《三聯生活周刊》封面。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-28 15:24:06

模型研究

2023-07-25 09:23:23

Llama 2GPT-4

2024-06-28 13:40:03

2024-04-03 12:13:58

2025-06-04 08:35:00

2023-09-11 15:57:16

人工智能模型GPT-4

2023-12-11 12:46:42

GPT-4LLaMA2模型

2023-05-19 11:00:19

數據集開源

2023-06-08 11:27:10

模型AI

2024-07-02 01:09:02

2025-08-04 09:13:00

AI智能體技術

2023-08-11 13:17:12

AI模型

2023-12-16 09:45:56

論文GPT-4AI

2024-07-12 11:31:06

2023-11-03 13:07:00

AI模型

2023-03-27 18:18:47

GPT-4AI

2024-07-09 12:54:57

2023-09-07 13:25:00

AI模型

2025-12-05 08:47:00

2023-06-19 08:19:50

點贊
收藏

51CTO技術棧公眾號

深夜精品寂寞黄网站在线观看| 99精品1区2区| 欧美成人乱码一区二区三区| 一级在线免费视频| 三级久久三级久久久| 日韩av男人的天堂| 秋霞国产精品| 在线看日韩精品电影| 中文久久久久久| 精品一区二区在线观看| 亚洲aⅴ男人的天堂在线观看| 成年永久一区二区三区免费视频| 日韩精品中文字幕一区| 在线观看你懂得| 国产欧美日产一区| 一区二区三区四区国产| 欧美精品国产一区二区| 奇米一区二区三区四区久久| 欧美韩国亚洲| 日韩一区二区三区三四区视频在线观看| 日日噜噜夜夜狠狠| 久久久午夜精品| 久久www视频| 日韩精品色哟哟| 精品一区二区三区日本| 日韩一区二区在线免费| 97精品一区二区三区| 久久精品黄色| 日韩高清av一区二区三区| 黄色成年人视频在线观看| 91福利国产精品| 天堂在线一二区| 一区二区三区91| 国产小黄视频| 亚洲色欲色欲www| 天天色综合天天色| 国产精品嫩草久久久久| 亚洲国产高清av| 国产精品家庭影院| 亚洲精品自拍网| 成人欧美一区二区三区黑人麻豆| 免费一区二区三区在线观看| 最新久久zyz资源站| 久草香蕉在线| 亚洲午夜在线观看视频在线| 在线观看视频你懂的| 色婷婷精品久久二区二区蜜臂av| 欧美日本韩国一区二区| 欧洲精品一区二区三区在线观看| 国产女人在线视频| 91精品国产综合久久小美女| 9191在线| 亚洲国产成人91精品| 国产99在线观看| 色综久久综合桃花网| 亚洲91网站| 国产美女久久久| 亚洲国产一区二区三区a毛片| 日产国产精品精品a∨| 国产成人亚洲精品狼色在线| www.日日操| 精品magnet| 人交獸av完整版在线观看| 国产亚洲一区精品| 欧美三级午夜理伦三级小说| 亚洲最大av网站| 美女视频黄 久久| 免费在线a视频| 一区二区高清在线| 欧美另类极品| 爽爽爽爽爽爽爽成人免费观看| 久久男人av| 国产亚洲情侣一区二区无| 久久99精品国产| 中文字幕亚洲乱码| 欧美亚洲综合色| 日本在线中文字幕一区二区三区| 国模精品一区二区三区色天香| 久久综合av| 亚洲国产欧美日韩| 久久久久久97三级| 高清在线观看av| 色偷偷综合社区| 九九久久婷婷| 亚洲 国产 日韩 综合一区| 久久免费国产精品| 国产精品久久久久一区二区国产 | 久久国产高清| 丝袜人妻一区二区三区| 亚洲综合一区二区精品导航| 在线观看h网| 欧美日本啪啪无遮挡网站| 久久一区二区三区喷水| 亚洲综合五月天| 一级精品视频在线观看宜春院| 日本孕妇大胆孕交无码| 欧美交受高潮1| 久热精品视频| 欧美三级日韩在线| 人偷久久久久久久偷女厕| 91蝌蚪porny| 超碰在线影院| 欧美精品video| 久久美女性网| 欧美黑人孕妇孕交| 中文字幕精品av| 亚洲美女一区| 成年人视频在线网站| 精品夜色国产国偷在线| 亚洲综合五月| 久草香蕉在线| 最近2019中文字幕一页二页| 激情综合中文娱乐网| 先锋成人影院| 国产小视频国产精品| 亚洲深夜影院| 在线中文字幕观看| 国内精品视频在线| 国产99久久久久久免费看农村| 国产中文字幕在线观看| 久久全球大尺度高清视频| 狠狠久久亚洲欧美| 亚洲乱亚洲乱妇| 国产日韩欧美日韩| 欧美激情一区三区| 最新欧美电影| 在线看无码的免费网站| 欧美亚洲图片小说| 日韩欧美一区二区三区免费看| 国产aaaaa毛片| www.日韩.com| 国产精品1区二区.| 韩日毛片在线观看| 日本一区二区三区视频在线播放 | 91欧美极品| 久久99久久99精品| 日韩一级大片在线观看| 午夜视频一区| 美国成人av| 国产91精品久久久久久| 久久久久亚洲蜜桃| 欧美v亚洲v综合v国产v仙踪林| 91制片厂免费观看| 亚洲国产成人爱av在线播放| 久久精品免费| 国产精品久久久久久福利| 99久久国产免费免费| 欧美日韩中文字幕在线| 久久不见久久见中文字幕免费| 亚洲精品自拍网| 欧美黑人巨大xxx极品| 95精品视频在线| 精品国产亚洲一区二区三区| www一区二区www免费| 久久影院模特热| 欧美激情在线一区二区| 免费看久久久| 一本免费视频| 成人欧美在线观看| 91国内精品野花午夜精品| 亚洲视频观看| 中国av在线播放| 亚洲午夜精品国产| 亚洲人成电影网站| 99精品1区2区| 小嫩嫩12欧美| 国内外成人免费激情视频| 别急慢慢来1978如如2| 成人中文字幕在线播放| 色爱区成人综合网| 国产成人av电影在线观看| 成人免费观看在线观看| 亚洲mv在线看| 亚洲精品小视频| 不卡的av在线| 成人高h视频在线| 日韩久久电影| 免费观看成年在线视频网站| 99视频免费观看蜜桃视频| 在线观看亚洲精品视频| 99精品国产福利在线观看免费| caopeng在线| 亚洲国产欧洲综合997久久| 亚洲电影中文字幕| 99re这里只有精品视频首页| 亚洲午夜免费| 中文字幕毛片| 国内视频一区二区| 日韩精品黄色网| 久久久亚洲精品一区二区三区 | 日韩一区二区av| 国产精品国产三级国产三级人妇 | 欧美日韩中文国产一区发布| 日韩精品中文字幕有码专区 | 久久精品人人做人人爽人人| 日韩成人动漫在线观看| 国产专区在线播放| 警花观音坐莲激情销魂小说| 91极品视频在线| 欧美一区二区三区视频|