国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑 精華

發(fā)布于 2024-6-20 10:06
瀏覽
0收藏

紅隊測試已成為發(fā)現生成性人工智能(AI)系統(tǒng)中的缺陷、漏洞和風險的重要工具,包括大型語言模型和多模態(tài)生成模型。它被AI開發(fā)者用來向決策者和公眾利益相關者提供保證,并且越來越多地被監(jiān)管機構和其他負責維護公共安全的機構要求或強制執(zhí)行。盡管紅隊測試的使用日益增加,但由于缺乏最佳實踐共識,難以比較結果和建立標準,這阻礙了AI安全研究的進展,也使公眾難以評估AI安全。

AI紅隊測試中的一個常見挑戰(zhàn)是確保風險表面的全面和均勻覆蓋。不均勻的覆蓋可能導致冗余的攻擊集群和遺漏的漏洞或盲點。紅隊測試中的無意偏差可能是由于攻擊者人口統(tǒng)計學特征或任務設計等實際因素造成的。例如,開放式方法旨在促進廣泛探索,但可能無意中導致集群冗余,因為紅隊成員可能自然傾向于熟悉或容易利用的漏洞。這種傾向可能會被獎勵快速或容易識別傷害的激勵結構放大。此外,人類紅隊成員中缺乏人口統(tǒng)計學多樣性可能會加劇這一問題,因為攻擊通常反映攻擊者自己固有的有限經驗和觀點。

為了解決這一挑戰(zhàn),先前的工作仍然存在局限性。一種策略是簡單地增加攻擊次數,但這既昂貴又不能保證全面覆蓋,因為多個攻擊者可能仍然利用相同的傷害向量。原則性方法包括動態(tài)激勵,獎勵發(fā)現影響力大的漏洞,將多樣化提示生成視為質量-多樣性搜索,并使用參數化指令,盡管這些方法尚未應用于生成性AI的人類紅隊測試。

在這樣的背景下,Google DeepMind的研究團隊在6月17日提出了一種創(chuàng)新的社會技術方法——STAR(SocioTechnical Approach to Red Teaming)并發(fā)表的論文《STAR: SocioTechnical Approach to Red Teaming Language Models》,他們旨在通過結合技術和社會學的視角,提高紅隊測試的效率和效果。STAR框架通過參數化指令、人口統(tǒng)計匹配和仲裁步驟等技術創(chuàng)新,使得紅隊測試更加系統(tǒng)化、可重復,同時也更能針對特定群體和場景進行安全評估。

研究團隊的背景令人矚目,他們由Google DeepMind的Laura Weidinger和John Mellor領銜,團隊成員跨越了Google的多個部門,包括Google Labs。這樣的跨學科團隊集結了AI研究、應用和技術分析的頂尖專家,他們的合作為STAR框架的提出和實施提供了堅實的科學和實踐基礎。

STAR框架概述

STAR框架即SocioTechnical Approach to Red Teaming,是一種結合社會學和技術方法的紅隊測試新框架。它旨在通過系統(tǒng)化的參數化指令、人口統(tǒng)計匹配和仲裁步驟,提高對大型語言模型安全性的測試覆蓋率和準確性。STAR框架的核心在于它的社會技術雙重視角,不僅關注技術層面的漏洞,也考慮到社會文化因素對AI安全性的影響。

社會技術方法是指在技術系統(tǒng)的設計、評估和測試中,同時考慮技術組件和社會組件的相互作用。在STAR框架中,這種方法體現在將人類專家的社會文化知識和技術系統(tǒng)的參數化指令相結合,以更全面地評估和提升語言模型的安全性。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

圖1:STAR按程序生成參數指令,以確保全面的AI紅隊。

參數化指令是STAR框架中的一個創(chuàng)新點,它允許研究者根據預設的參數生成具體的測試指令。這些指令能夠指導紅隊成員針對特定的風險領域進行測試,從而確保測試的全面性和深入性。參數化指令的設計考慮了多種因素,如攻擊類型、目標人群、使用場景等,使得紅隊測試更加精準和高效。

由于紅隊成員的人口統(tǒng)計學偏差,信號質量可能會降低,因為種族、性別和地理文化區(qū)域已被證明會影響對令人反感或對抗性生成內容的判斷。然而紅隊測試和注釋團隊通常缺乏人口統(tǒng)計學多樣性,即使努力招募多樣化人才也是如此。在以前的研究中,大多數紅隊成員被識別為白人、順性別、異性戀且沒有殘疾,男性通常多于女性。此外大多數紅隊測試都集中在英語攻擊上,排除了許多人口統(tǒng)計群體及其語言。這種人口統(tǒng)計學偏差可能導致這些社區(qū)的風險未被發(fā)現,可能在部署AI系統(tǒng)時加劇對這些社區(qū)的不成比例的傷害風險。為了確保廣泛的覆蓋范圍以及合法可靠的數據點,紅隊測試應該涉及多樣化的群體,包括更廣泛的觀點和經驗。此外,需要原則性的方法來考慮有意義的注釋者分歧。

人口統(tǒng)計匹配在STAR框架中扮演著至關重要的角色。通過確保注釋者和被測試內容的人口統(tǒng)計特征相匹配,可以更準確地評估模型輸出對特定群體可能造成的傷害。這種匹配增強了測試的敏感性和準確性,尤其是在評估可能的偏見和歧視時。

應用社會技術視角,STAR將人類攻擊者和注釋者與AI系統(tǒng)的相互作用置于中心。為了提供合法可靠的信號,我們利用不同類型的專業(yè)知識,雇用事實核查者、醫(yī)療專業(yè)人員和來自不同人口統(tǒng)計群體的普通人的生活經驗。為了從分歧中學習,我們在我們的注釋流程中引入了一個仲裁步驟。

仲裁步驟是STAR框架中的另一個關鍵創(chuàng)新,它引入了第三方評估來解決注釋者之間的分歧。當兩個注釋者對某個測試結果的評估存在顯著差異時,仲裁者會介入,提供獨立的評估和解釋。這一步驟提高了評估的可靠性和權威性,確保了測試結果的質量。

方法論

研究者們采用了一系列創(chuàng)新的方法論來執(zhí)行紅隊測試。這些方法不僅確保了測試的系統(tǒng)性和可重復性,而且提高了測試的針對性和深入性。

數據:我們在2024年1月獲得了227名紅隊成員的8360個對話,由308名注釋者和仲裁者進行注釋。每個對話都是對內容安全政策中的一條規(guī)則進行對抗性測試。

任務設計:這里的對抗性測試由人類紅隊成員在多輪(平均:16.4 ± 11.3)設置中進行。參與者被分配紅隊任務、注釋任務或仲裁任務。參與者可以連續(xù)執(zhí)行多個任務,但他們永遠不會看到同一個對話兩次。

紅隊任務:紅隊成員根據程序生成的指令執(zhí)行任務,最多包含五個參數,指導紅隊成員:

1.違反安全政策中的特定規(guī)則;

2.在攻擊中采用指定級別的對抗性(低、中、高);

3.模仿特定用例(例如,信息搜索、娛樂);

4.在開始對話之前承諾一個特定主題,他們可以自由選擇;

5.如果規(guī)則涉及仇恨言論或歧視性刻板印象,確定攻擊目標的特定人口統(tǒng)計群體。被要求攻擊的人口統(tǒng)計群體是從性別和種族標簽中隨機選擇的一到兩個交集。

紅隊成員與專有模型進行書面對話。我們鼓勵進行10-15輪對話,但紅隊成員決定何時結束交流。完成對話后,紅隊成員對聊天機器人是否違反了指定規(guī)則或任何其他規(guī)則進行‘預注釋’;以及對話是否提到了任何人口統(tǒng)計群體,如果是,是哪些。這里,更多的人口統(tǒng)計標簽可用,包括殘疾狀態(tài)、年齡、宗教和性取向。

研究團隊首先定義了一系列參數化指令,這些指令基于預先設定的風險領域和人口統(tǒng)計特征。通過這些指令,紅隊成員能夠生成針對特定場景的攻擊,從而收集關于語言模型響應的數據。收集到的數據隨后經過處理,以便進行更深入的分析。處理過程中,特別注意保護參與者的隱私和數據的安全。

任務的設計圍繞著STAR框架的核心要素:參數化指令、人口統(tǒng)計匹配和仲裁步驟。紅隊成員根據這些指令執(zhí)行測試,而注釋者和仲裁者則基于人口統(tǒng)計匹配原則進行評估。任務執(zhí)行過程中,研究團隊密切監(jiān)控測試的進展,確保所有步驟都按照預定計劃進行。

注釋流程是紅隊測試中的關鍵環(huán)節(jié)。注釋者需要對收集到的數據進行評估,判斷語言模型的響應是否存在潛在的安全問題。在評估過程中,如果兩位注釋者對同一數據點的評估存在顯著差異,仲裁者將介入,提供最終的評判。這一流程確保了評估的公正性和準確性。

為了確保測試結果的廣泛適用性和高質量,研究團隊在招募參與者時特別注重多樣性。參與者包括了不同性別、種族、年齡和地理位置的人群,以確保測試能夠覆蓋廣泛的人口統(tǒng)計特征。這種多樣性的招募策略有助于揭示語言模型可能對特定群體產生的不同影響。

實驗結果

實驗結果是評估STAR框架有效性的關鍵部分,研究團隊通過一系列精心設計的實驗,展示了STAR框架在提升可操控性、改進信號質量、細粒度分析模型失敗模式方面的顯著成效。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

表1:在圖2中映射的嵌入空間中觀察到的二十個語義聚類的概述。單元格顏色表示每個聚類的高(暗)和低(亮)對話數。

通過視覺檢查圖2,盡管與其他預測的紅隊方法相比,STAR方法的指令更具體,但顯示出相當廣泛的覆蓋范圍和低聚類。分析嵌入空間中的集群揭示了三種紅隊方法之間的主題分裂(表1)。STAR對話中最常見的主題是性別刻板印象(集群2)和基于種族的偏見(16),其次是醫(yī)療主題(8),反映了指令。Anthropic對話中最常見的主題是惡意使用(5),包括成人小說的明確故事(3),以及促進犯罪(0)。DEFCON對話中最常見的主題是關于模型訓練的提示,其次是模型拒絕(4),密碼和敏感個人數據(7),以及包括名人的個人身份信息(14)。相比之下,實際被標記對話中最常見的主題是建議和推薦(1),計算機代碼(12)和拒絕(4)。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

圖2:Anthropic、DEFCON和STAR三個紅隊數據集的對話嵌入空間的UMAP;以及專有模型和被用戶標記為不期望的用戶之間的對話。每個點表示一個對話。為了便于比較,我們對所有數據集進行了下采樣,以包括最多4000個隨機選擇的實例。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

表2:組內和組外注釋者將規(guī)則標記為(“明確”或“可能”)違反的比率,以及比較t檢驗的結果。

內部群體的注釋者在45%的案例中標記了仇恨言論和歧視性刻板印象對話為違規(guī),而外部群體的注釋者在30%的案例中給出了這樣的評級。比例差異測試產生了0.01的p值(見表2)。圖4顯示了這些評級的分布,按注釋者是屬于內部群體還是外部群體進行了細分。從中我們看到,在更極端的評級中存在最大的差異,內部群體的注釋者更有可能將規(guī)則評為“絕對違規(guī)”,而不太可能給出“絕對未違規(guī)”的評級。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

圖3:特定的指令和多樣化的注釋庫甚至可以探索針對不同人口群體的攻擊,同時保持“人口匹配”。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

圖4:針對仇恨言論或針對人口群體的歧視性刻板印象的對話的組內和組外注釋。組內注釋不太可能將規(guī)則標記為“絕對未破壞”,而更可能將其標記為“肯定已破壞”。誤差條表示95%CI。

Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑-AI.x社區(qū)

圖5:按規(guī)則排列的組內和組外注釋。仇恨言論表明,在將規(guī)則評為違反規(guī)則的可能性方面,組內和組外注釋者之間存在顯著差異。

當按規(guī)則分開時,只有仇恨言論在內部群體和外部群體注釋者之間的評級為違規(guī)的可能性上顯示出統(tǒng)計學上的顯著差異(見圖5)。我們還測試了內部群體與外部群體在針對特定人口統(tǒng)計群體的紅隊攻擊成功率,但在這里我們沒有發(fā)現顯著差異(見G)。定性分析進一步暗示了內部群體與外部群體分歧背后的不同敏感性輪廓。當目標群體被間接提及或引用,或在“正面”刻板印象的背景下時,經常會出現分歧,內部群體成員更頻繁地將此類對話標記為違規(guī)(見I.1)。另一方面,外部群體成員似乎更有可能將用戶發(fā)表問題聲明和模型未能反駁的對話標記為違規(guī)——即使模型沒有明確支持有害觀點。最后,與內部群體成員相比,外部群體評價者在將對話標記為非違規(guī)時,更有可能引用模型拒絕或免責聲明。

STAR框架通過參數化指令顯著提升了紅隊測試的可操控性。實驗結果表明,使用STAR框架的紅隊成員能夠更精確地定位和探索模型的風險表面。這種提升不僅使得測試過程更加高效,而且確保了測試覆蓋面的全面性,從而揭示了模型在特定場景下的潛在安全問題。

STAR框架的另一個顯著優(yōu)勢是信號質量的改進。通過人口統(tǒng)計匹配和仲裁步驟,注釋者能夠更敏感地捕捉到模型輸出中的細微差別,尤其是那些可能對特定社會群體造成傷害的內容。這種改進使得模型的評估更加準確,有助于開發(fā)者理解和修復模型的缺陷。

STAR框架還使得研究團隊能夠進行模型失敗模式的細粒度分析。實驗數據揭示了模型在處理特定人口統(tǒng)計群體信息時的復雜交互模式。例如,研究發(fā)現模型在處理與性別和種族交叉相關的內容時,可能會展現出不同的偏見傾向。這種細粒度的分析為改進模型的公平性和減少偏見提供了重要的洞察。

在STAR框架中,注釋者之間的分歧被視為一種有價值的信號,而不是噪音。分歧的存在反映了不同注釋者的獨特視角和經驗,特別是在評估模型輸出可能對特定群體造成的影響時。通過仲裁步驟,研究團隊能夠深入理解這些分歧背后的原因,并在最終評估中考慮到這些多元視角。

討論

研究團隊介紹了一種新穎的社會技術方法來進行紅隊測試,該方法通過整合參數化指令和新技術(即人口統(tǒng)計匹配和仲裁)來利用程序指導的控制和人類專業(yè)知識的準確性。他們證明了這些有針對性的干預措施能夠全面且均勻地探索模型風險表面的目標區(qū)域,并提供高質量的信號。

除了解決可操控性和控制性挑戰(zhàn)外,通過引入一個原則性的生成此類指令的過程,STAR還提供了解決紅隊領域中另一個持續(xù)挑戰(zhàn)的方法——創(chuàng)建可復制的過程來生成可比較的紅隊數據集。

作為概念驗證,他們展示了STAR可以用于針對不同特定性級別的特定風險區(qū)域。這是有效的,因為比較多種紅隊方法的聚類分析顯示,性別刻板印象和基于種族的偏見是我們在STAR中的對話的主要主題——如指令中所針對的,但不是其他更廣泛關注的紅隊方法。值得注意的是,雖然DEFCON和Anthropic給紅隊成員更開放式的指令,但這些努力最終聚集在不同的區(qū)域,這些區(qū)域并未被描述為關鍵的預期目標區(qū)域,特別是在惡意使用和比較狹窄的失敗模式(如個人身份信息發(fā)布)上。這表明,開放式指令并沒有提供比STAR中提供的高度結構化、參數化指令更廣泛的覆蓋范圍。相反,STAR是一種更有意圖地控制目標區(qū)域的方法,而不會導致結果對話的更高聚集。

研究團隊注意到,參數化指令能夠在不增加額外成本的情況下,發(fā)現更細微的模型失敗模式。這可能揭示了以前的盲點——在他們的案例中,顯示出雖然模型不太可能對特定種族或性別發(fā)表仇恨言論,但在被提示關于性別×種族交叉性時,它更有可能再現社會邊緣化,特別是與白人男性相比,對有色人種女性更是如此。通過這種方式,STAR的參數化方法通過在不增加額外成本的情況下,實現更細微的失敗模式覆蓋,提供了顯著的附加價值。

STAR框架在紅隊測試領域的創(chuàng)新之處在于其獨特的社會技術結合方法。通過參數化指令,它能夠精確地引導測試者探索AI模型的潛在風險,這不僅提高了測試的針對性,也大大增強了測試的全面性。人口統(tǒng)計匹配和仲裁步驟的引入,進一步提升了測試結果的敏感性和準確性,使得對模型的評估更加細致和深入。這些優(yōu)勢共同作用,使STAR成為一個強有力的工具,用于發(fā)現并緩解可能的AI風險。

STAR框架的實驗發(fā)現對于理解和改進AI模型的安全性具有重要意義。通過細粒度的分析,研究者能夠揭示模型在處理復雜社會問題時的潛在偏見和不足。這些發(fā)現不僅有助于開發(fā)者優(yōu)化模型,減少偏見,還為制定相關政策和標準提供了科學依據。此外,注釋者分歧的價值在于它提供了一個多元化的視角,有助于構建更加公正和全面的AI評估體系。

STAR框架對AI安全實踐的影響是深遠的。它不僅為AI研究者和開發(fā)者提供了一個強大的工具來評估和改進AI系統(tǒng),還為監(jiān)管機構和政策制定者提供了一個參考框架來理解和監(jiān)管AI技術。隨著AI技術在社會中的應用越來越廣泛,STAR框架所提供的深入洞察和系統(tǒng)化方法將對確保AI技術的安全、公正和可靠發(fā)揮關鍵作用。

參考資料:https://arxiv.org/pdf/2406.11757

本文轉載自 大噬元獸,作者: FlerkenS

收藏
回復
舉報
回復
相關推薦
91在线视频免费| 久久精品99久久| eeuss影院www在线播放| 美女在线视频一区| 久久艳片www.17c.com| 日本中文字幕在线2020| 亚洲国产成人一区二区三区| 亚洲一区二区在线免费观看| 国产精品不卡| 97超碰国产精品女人人人爽 | 日韩在线免费av| 国产资源在线看| 中文字幕第一区第二区| 中文字幕一区二区三区四区五区六区 | 欧美风情在线观看| 免费亚洲电影| 欧美一级一区二区| 亚洲图片欧美| 中文字幕一区二区三区视频 | 日韩欧美精品中文字幕| 一区二区三区免费播放| 国产成人欧美日韩在线电影| 欧美国产综合视频| 欧美日韩亚洲一区| 91精品久久久久久久久久| 大桥未久女教师av一区二区| 日韩中文字幕av| 日韩经典一区| 在线播放国产一区中文字幕剧情欧美 | 欧美性猛交xxxx免费看漫画| 国产日韩在线| 国产欧美日本一区视频| 激情六月丁香婷婷| 91年精品国产| 免费看日本毛片| 成人av动漫在线| 国产 欧美 日韩 一区| 国产精品一二三四区| 亚洲精品视频一二三| 性久久久久久| 日本不卡一区| 久久99精品久久久久婷婷| 亚洲国产成人不卡| 国产一区二区三区精品视频| 中文字幕99| 国产高清成人在线| 各处沟厕大尺度偷拍女厕嘘嘘| av亚洲精华国产精华| 免费在线观看污污视频| 国产真实乱对白精彩久久| 欧美日韩中文字幕在线播放 | 国产成人中文字幕| 成人系列视频| 97久久天天综合色天天综合色hd| 希岛爱理av一区二区三区| 亚洲综合中文字幕在线观看| 久久精品欧美一区| 久草精品电影| 狠狠色狠狠色综合系列| 免费视频爱爱太爽了| 国产午夜精品一区二区三区嫩草| jizz欧美性11| 色香蕉久久蜜桃| 美女尤物在线视频| 色婷婷综合久久久久| 奇米777国产一区国产二区| 成人黄色免费片| 日本午夜精品视频在线观看| 日韩a∨精品日韩在线观看| 中文字幕中文在线不卡住| 青青草在线视频免费观看| 精品国产一区二区三区不卡| av在线亚洲一区| 国产精品久久久久免费a∨| 在线电影一区| 成年人看的毛片| 一区二区三区日韩欧美精品| 日韩理伦片在线| zzijzzij亚洲日本成熟少妇| 免费国产自久久久久三四区久久| 久久er99热精品一区二区三区| 国产一区二区不卡老阿姨| 制服影音先锋| 欧美一二区视频| 亚洲一区网址| 狠狠色噜噜狠狠色综合久| 成人高清视频在线| 日韩一区二区三区中文字幕| 亚洲精品视频免费在线观看| 免费av一区| 好吊色视频988gao在线观看| 国产精品久久久99| 日本一级理论片在线大全| 国外色69视频在线观看| 亚洲一区二区三区免费在线观看| 欧美极品欧美精品欧美图片| 欧美唯美清纯偷拍| 欧洲大片精品免费永久看nba| 成人综合av网| 国产欧美日韩在线| 国产高清一区二区三区视频 | 天天天综合网| 久久青青色综合| 2019中文在线观看| 久久中文精品| 天堂在线看视频| 亚洲欧美日韩久久久久久| 成人3d精品动漫精品一二三| 日韩视频 中文字幕| 亚洲福利一区二区| 亚洲四虎影院| 精品中文字幕人| 亚洲欧美影音先锋| 9i看片成人免费高清| 91成人免费观看| 日本一二三四高清不卡| а√天堂8资源中文在线| 成人久久一区二区| 欧美激情一区二区三区蜜桃视频| sm捆绑调教国产免费网站在线观看 | 五月天av在线| 97久久天天综合色天天综合色hd | 亚洲黄色在线观看| 久久日文中文字幕乱码| 成人午夜精品久久久久久久蜜臀| 欧美精品xxxxbbbb| 大色综合视频网站在线播放| 999香蕉视频| 亚洲毛片一区二区| 国产欧美大片| 精品亚洲综合| 国产精品老女人视频| 久久综合久久综合九色| 大香伊人中文字幕精品| 国产精品久久一区二区三区| 亚洲成人免费av| 亚洲人和日本人hd| 日韩手机在线观看视频| 亚洲片av在线| 狠狠色综合日日| brazzers在线观看| 欧美成人蜜桃| 欧美日韩国产高清一区二区三区| 日韩久久久久| 97影视大全免费追剧大全在线观看| 欧美激情高清视频| 久久久午夜电影| 成人黄色免费观看| av在线免费观看国产| 精品一区精品二区| 国产乱码精品1区2区3区| 一二三四视频在线中文| 亚洲精品日韩在线观看| 精品国产麻豆免费人成网站| 久久亚洲图片| freexxx性亚洲精品| 亚洲视频导航| 日韩www在线| 国产成人午夜精品5599| 日本综合视频| 中文字幕乱码人妻综合二区三区| 最近中文字幕2019免费| 成人永久免费视频| 亚洲欧洲专区| 一路向西2在线观看| 97成人精品区在线播放| 一区二区三区中文字幕精品精品| 网友自拍区视频精品| 偷偷要 色偷偷| 成人三级在线| 日韩一区二区视频在线观看| 国产在线播放一区| 亚洲精品大片| 老鸭窝av在线| 99国产精品久久久久老师| 欧美一区二区三区不卡| 国产一区二区精品在线观看| 成人在线日韩| 成人高清免费| 丁香婷婷久久久综合精品国产| 在线成人免费观看| 国内精品国产三级国产a久久| 玖玖精品在线| 日韩欧美亚洲| 欧美日韩一区二区视频在线 | 亚在线播放中文视频| 亚洲free性xxxx护士hd| 91精品国产品国语在线不卡 | 国产精品久久国产精品99gif| 欧美日韩久久久久| 日韩成人精品在线| 色诱色偷偷久久综合| 久久mv成人精品亚洲动漫| 成人福利在线视频| 日韩欧美成人一区二区| 99国产欧美久久久精品| 久久电影院7| xxxxx性欧美特大| 丝袜国产免费观看| 一区二区不卡在线视频 午夜欧美不卡'|