国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

爆火論文顛覆RL認(rèn)知!「錯(cuò)誤獎(jiǎng)勵(lì)」讓LLM推理暴漲24.6%,學(xué)界驚了

人工智能 新聞
錯(cuò)誤獎(jiǎng)勵(lì),也能讓AI推理開掛!最新研究證明,偽獎(jiǎng)勵(lì)讓LLM推理性能暴漲24.6%,一舉顛覆傳統(tǒng)的RL訓(xùn)練認(rèn)知。

今早的一篇爆火論文,徹底顛覆了人們對(duì)「強(qiáng)化學(xué)習(xí)」的傳統(tǒng)認(rèn)知。

僅用隨機(jī)獎(jiǎng)勵(lì),甚至是錯(cuò)誤答案,也能讓AI在數(shù)學(xué)推理中性能暴漲!

來自華盛頓大學(xué)、AI2、UC伯克利研究團(tuán)隊(duì)證實(shí),「?jìng)为?jiǎng)勵(lì)」(Spurious Rewards)也能帶來LLM推理能力提升的驚喜。

圖片

地址:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

實(shí)驗(yàn)中,他們用偽獎(jiǎng)勵(lì)訓(xùn)練了Qwen2.5-Math-7B,在MATH-500數(shù)據(jù)集中發(fā)現(xiàn):

格式獎(jiǎng)勵(lì)性能提升16.4%;錯(cuò)誤獎(jiǎng)勵(lì)提升24.6%;隨機(jī)獎(jiǎng)勵(lì)提升21.4%。

可見,偽獎(jiǎng)勵(lì)如同黑魔法,能夠讓Qwen的數(shù)學(xué)能力整體實(shí)現(xiàn)15-20%的飆升。

然而,對(duì)Qwen有效的偽獎(jiǎng)勵(lì)在其他模型中,如Llama3、OLMo2,突然失效。

圖片

值得一提的是,他們還發(fā)現(xiàn)RLVR可以激勵(lì)Qwen2.5-Math的獨(dú)特行為,其在代碼推理上,性能從66.7%飆升至90%。

即便是使用偽獎(jiǎng)勵(lì),結(jié)果也是如此。

當(dāng)隨機(jī)獎(jiǎng)勵(lì)可以大幅提升模型性能,就得重新思考:到底是RL在學(xué)習(xí),還是在放大「先驗(yàn)」行為?

谷歌DeepMind研究科學(xué)家Xidong Feng表示,這篇論文會(huì)讓一大堆LLM+RL的研究受到質(zhì)疑。

圖片

另一位DeepMind科學(xué)家Andrew Lampinen稱贊道,這確實(shí)是一個(gè)反常識(shí)典型案例。

圖片

隨機(jī)獎(jiǎng)勵(lì),竟破解了RLVR

在大模型訓(xùn)練中,可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)是一種提升推理能力常見的策略。

傳統(tǒng)觀念認(rèn)為,RLVR的成功離不開「高質(zhì)量」的獎(jiǎng)勵(lì)信號(hào)。

就好比,老師給學(xué)生的正確答案,或評(píng)分一樣,只有「教得對(duì)」,才能「學(xué)得好」。

而這項(xiàng)新研究,直接挑戰(zhàn)了RLVR這一觀念。

圖片

如上所見,即使獎(jiǎng)勵(lì)信號(hào)完全隨機(jī),甚至給出誤導(dǎo)性的信號(hào),Qwen-Math依然能在數(shù)學(xué)推理上取得驚人的進(jìn)步。

這到底是怎么回事?對(duì)此,研究人員發(fā)起了疑問——

單樣本或無監(jiān)督RLVR的訓(xùn)練信號(hào)從何而來?獎(jiǎng)勵(lì)提供有意義的RLVR訓(xùn)練信號(hào)的最低要求是什么?

圖片

實(shí)驗(yàn)設(shè)置

針對(duì)Qwen-Math、Llama 3.1、OLMo2模型,研究人員為其設(shè)置了三種有趣的偽獎(jiǎng)勵(lì)形式:

· 格式獎(jiǎng)勵(lì):僅回答包含 \boxed{} 就給予獎(jiǎng)勵(lì)。這種格式在模型系統(tǒng)中已指定,類似指令遵循的概念。

· 隨機(jī)獎(jiǎng)勵(lì):完全隨機(jī)的反饋。簡單來說,如果 random.random() < rate 則 1,否則 0

· 錯(cuò)誤獎(jiǎng)勵(lì):故意提供錯(cuò)誤的監(jiān)督信號(hào)。

在錯(cuò)誤獎(jiǎng)勵(lì)中,人為構(gòu)造錯(cuò)誤且具有迷惑性答案的步驟:

按頻率對(duì)模型的輸出進(jìn)行排序;選取最常見的回答;如果該回答正確,則丟棄該樣本;在模型最常見回答錯(cuò)誤的子集上進(jìn)行訓(xùn)練,并使用該特定回答作為訓(xùn)練標(biāo)簽。

此外,在比較過程中,研究團(tuán)隊(duì)還引入了弱獎(jiǎng)勵(lì):

· 多數(shù)投票獎(jiǎng)勵(lì):以多數(shù)投票的答案作為標(biāo)簽

· 單樣本RL:在單個(gè)樣本上進(jìn)行標(biāo)準(zhǔn)RLVR

針對(duì)數(shù)學(xué)優(yōu)化的Qwen模型,不論是在MATH、AMC,還是AIME基準(zhǔn)上,數(shù)學(xué)推理性能都有大幅提升。

圖片

劇情反轉(zhuǎn)

偽獎(jiǎng)勵(lì)并非對(duì)所有模型都有效

然而,對(duì)于那些未針對(duì)數(shù)學(xué)推理優(yōu)化模型,研究人員觀察到了有趣的現(xiàn)象。

與其他模型不同,Qwen-Math在「?jìng)为?jiǎng)勵(lì)」下表現(xiàn)提升甚微。具體來說,Qwen 2.5-7B在錯(cuò)誤獎(jiǎng)勵(lì)下的性能28.5%,接近于真實(shí)獎(jiǎng)勵(lì)的33.3%。

而在Llama3.1、OLMo2這兩款模型上,劇情更是出現(xiàn)了大反轉(zhuǎn)。

Llama3.1-8B-Instruct在錯(cuò)誤獎(jiǎng)勵(lì)在提升僅1.3%,而隨機(jī)獎(jiǎng)勵(lì)性能暴減4.9%。

與此同時(shí),OLMo2-7B在偽獎(jiǎng)勵(lì)情況下,把性能衰退更是展現(xiàn)地淋漓盡致。

此外,研究團(tuán)隊(duì)還發(fā)現(xiàn),對(duì)真實(shí)標(biāo)簽(ground truth labels)進(jìn)行簡單的GRPO訓(xùn)練時(shí),可以提升所有模型的性能。

其中,Qwen和Qwen-Math模型,相比Llama和OLMo模型提升更為顯著。

圖片

在多數(shù)投票獎(jiǎng)勵(lì)中,此前已有研究提出用其來提升模型的一致性。實(shí)驗(yàn)中,作者發(fā)現(xiàn)它確實(shí)對(duì)大多數(shù)模型都有幫助,但對(duì)OLMo無效。

圖片

針對(duì)格式獎(jiǎng)勵(lì),他們還發(fā)現(xiàn),僅教模型生成可解析的結(jié)果,就能在Qwen模型上獲得「巨大」的性能提升。

結(jié)果顯示,Qwen2.5-1.5B絕對(duì)性能提升高達(dá)49.9%。

但這種獎(jiǎng)勵(lì),卻讓Llama3.2-3B-Instruct和OLMo2-SFT-7B的性能,分別降低了7.3%和5.3%。

圖片

有趣的是,模型的性能在達(dá)到峰值后,逐漸下降。

這里,研究人員推測(cè)這是因?yàn)槟P鸵选笇W(xué)會(huì)」該格式,進(jìn)一步訓(xùn)練不再提供更多信息。

在錯(cuò)誤獎(jiǎng)勵(lì)的實(shí)驗(yàn)中,Qwen模型性能仍顯著提升 ,但其對(duì)Llama無影響,并損害了OLMo-Base和OLMo-SFT的性能。

圖片

接下來,如果完全不看回答內(nèi)容,隨機(jī)分配0或1的獎(jiǎng)勵(lì),會(huì)有效嗎?

答案是——對(duì)于Qwen是有效的,但對(duì)其他模型無效。

值得注意的是,隨機(jī)獎(jiǎng)勵(lì)對(duì)Qwen2.5-1.5B無效,且對(duì)Qwen2.5-7B需訓(xùn)練約120步后,才開始生效。

因此,研究人員訓(xùn)練了更長時(shí)間(300 步),發(fā)現(xiàn)模型在隨機(jī)獎(jiǎng)勵(lì)下的收斂水平低于其他有信號(hào)的獎(jiǎng)勵(lì)。

圖片

這種依賴于模型架構(gòu)的行為表明,RLVR的有效性更多取決于模型預(yù)訓(xùn)練時(shí)的能力,而非監(jiān)督信號(hào)的質(zhì)量。

如今,Qwen因強(qiáng)大推理性能,已成為開源社區(qū)RLVR研究的默認(rèn)選擇。

針對(duì)以上「?jìng)为?jiǎng)勵(lì)」的實(shí)驗(yàn)結(jié)果,研究人員對(duì)未來的研究給出了一些建議。

近期兩項(xiàng)研究表明,RLVR僅在「弱監(jiān)督」下對(duì)Qwen模型有效,但這些結(jié)論無法推廣到其他模型系列:

1. 測(cè)試時(shí)強(qiáng)化學(xué)習(xí)(TTRL):在測(cè)試階段,實(shí)時(shí)收集多個(gè)輸出答案,用多數(shù)投票結(jié)果作為獎(jiǎng)勵(lì)信號(hào)

2. 單樣本強(qiáng)化學(xué)習(xí)(1-shot RL):僅用單個(gè)樣本的RLVR訓(xùn)練,就能達(dá)到傳統(tǒng)大規(guī)模訓(xùn)練集的效果

圖片

因此,未來的RLVR研究,還應(yīng)在其他模型上進(jìn)行驗(yàn)證。

偽獎(jiǎng)勵(lì),為何在RLVR中有效?

現(xiàn)在,你可能會(huì)好奇——這到底是怎么回事?為什么這些偽獎(jiǎng)勵(lì)在Qwen-Math上有效?

研究人員假設(shè),RLVR訓(xùn)練結(jié)果的差異源于各模型在預(yù)訓(xùn)練期間,學(xué)習(xí)的特定推理策略的不同。

特別是,某些策略可能更容易被RLVR激發(fā),而其他策略可能更難以顯現(xiàn)或完全缺乏。

圖片

案例研究:代碼推理

通過仔細(xì)分析,研究者發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:

Qwen-Math在RLVR訓(xùn)練前,就有65.0%的概率使用Python代碼來解決數(shù)學(xué)問題。

更令人印象深刻的是,即使沒有代碼執(zhí)行器,它也常常能生成正確的代碼輸出以及問題的正確答案。

然而,這種頻繁且高質(zhì)量的代碼推理能力在其他模型中并不存在。在應(yīng)用RLVR后,無論獎(jiǎng)勵(lì)質(zhì)量如何,Qwen-Math 的代碼推理頻率平均增加到超過90%。

圖片

如下示例中,展示了Qwen-Math-7B如何精確預(yù)測(cè)3√13到小數(shù)點(diǎn)后15位。

令作者驚訝的是,這比iPhone計(jì)算器還多出一位精度。

圖片

這種推理策略的轉(zhuǎn)變,而非獲得新的推理技能,似乎是性能提升的一種驅(qū)動(dòng)力。

Qwen模型通過RLVR訓(xùn)練學(xué)會(huì)更多地使用代碼推理——從語言推理到代碼推理的轉(zhuǎn)變有效地提升了性能。

對(duì)于Qwen-Math和Qwen模型,代碼使用頻率與性能高度相關(guān)。

代碼越多,正確答案越多,反之亦然。

然而,在那些能生成代碼但無法生成高質(zhì)量代碼的模型,如OLMo2-7B-SFT,這種相關(guān)性是相反的。

圖片

由此,研究人員得出——生成代碼以輔助數(shù)學(xué)推理訓(xùn)練策略,Qwen-Math能加以有效利用,而其他模型家族則不然。

正確的推理策略,性能提升比?

更有趣的是,研究人員還追蹤了RLVR前后推理策略發(fā)生切換的問題,并分析性能提升的具體來源。

如下圖所示,「?jìng)为?jiǎng)勵(lì)」在將模型行為切換到代碼推理方面更為激進(jìn),且很少將原本的代碼推理行為轉(zhuǎn)為自然語言推理。

令人印象深刻的是,偽獎(jiǎng)勵(lì)下的RLVR似乎做出了正確的選擇——從自然語言推理切換到代碼推理的問題,性能提升了約55%。

另一方面,真實(shí)獎(jiǎng)勵(lì)則將自然語言推理的性能提升了60.2%!

圖片

接下來,研究人員進(jìn)一步量化了每種策略切換行為,對(duì)各模型性能提升的貢獻(xiàn)。

有趣的是,如果模型擅長代碼推理(代碼準(zhǔn)確率>語言準(zhǔn)確率),RLVR性能提升主要來自從語言推理到代碼推理的切換;反之亦然。

圖片

成功引導(dǎo)模型推理策略的獎(jiǎng)勵(lì)對(duì)總體性能提升的部分貢獻(xiàn)平均值

基于這些初步觀察中的強(qiáng)相關(guān)性,他們假設(shè)代碼推理是Qwen模型在數(shù)學(xué)任務(wù)中表現(xiàn)優(yōu)異的一種推理行為。

為了驗(yàn)證這一假設(shè),研究人員通過提示和RL明確約束模型生成代碼推理。

結(jié)果觀察到,所有測(cè)試模型的代碼推理頻率與基準(zhǔn)測(cè)試性能之間存在強(qiáng)相關(guān)性。(相關(guān)性的方向取決于特定模型的代碼質(zhì)量)。

· 通過提示誘導(dǎo)代碼推理

簡單提示模型以「讓我們用Python解決這個(gè)問題」開始回答,這顯著提升了 Qwen-Math 模型的性能,但降低了Llama和OLMo模型的性能。

圖片

· 通過強(qiáng)化學(xué)習(xí)誘導(dǎo)代碼推理

在提示實(shí)驗(yàn)成功后,研究者設(shè)計(jì)了一個(gè)額外的偽獎(jiǎng)勵(lì),只要回答中包含字符串「python」,就給予獎(jiǎng)勵(lì)。

這強(qiáng)烈鼓勵(lì)所有模型使用代碼推理,在第50步后代碼推理占比>99%。

在下圖中,展示了類似趨勢(shì),但通過RL訓(xùn)練模型使用更多Python代碼時(shí),效果更加顯著。Qwen-Math和Qwen2.5-7B的性能提升,而其他模型的性能下降。

圖片

但,為什么是隨機(jī)的?

當(dāng)研究人員看到使用 random.random() < 0.5 生成的獎(jiǎng)勵(lì),使得訓(xùn)練曲線上升時(shí),感到非常困惑。

完全無意義的獎(jiǎng)勵(lì)——不提供任何信息的獎(jiǎng)勵(lì)——怎么可能幫助模型學(xué)習(xí)?

這個(gè)悖論讓我們開始尋找 AI 的「?jìng)惗厣⒘Α梗↙ondon dispersion force of AI)——就像電中性原子之間仍然神秘地相互吸引一樣。

圖片

在深入研究GRPO后,作者發(fā)現(xiàn)裁剪(clipping)項(xiàng)可能是關(guān)鍵。他們通過以下三種方法對(duì)裁剪因子進(jìn)行了消融實(shí)驗(yàn):

(a) 直接在損失計(jì)算中禁用裁剪,

(b) 調(diào)整訓(xùn)練和rollout批大小,使展開模型與策略模型保持一致,

(c) 減少展開大小以維持等效條件。

方法 (b) 和 (c) 確保每次展開步驟僅進(jìn)行一次梯度更新,自然避免了裁剪約束。

在 Qwen2.5-Math-7B 上消融 GRPO 中裁剪項(xiàng)時(shí)的性能和代碼推理頻率。使用隨機(jī)獎(jiǎng)勵(lì)并啟用裁剪的訓(xùn)練增加了代碼推理模式并提升了性能。

圖片

總體而言,所有無裁剪運(yùn)行的方差都很大,尤其是那些進(jìn)行8次梯度更新,且物理關(guān)閉裁剪功能的運(yùn)行(綠色)。

這些無裁剪運(yùn)行的平均值與啟用裁剪和隨機(jī)獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)GRPO損失相比,呈現(xiàn)出平坦的曲線。

在標(biāo)準(zhǔn)GRPO裁剪下,隨機(jī)獎(jiǎng)勵(lì)讓Qwen2.5-Math-7B性能提升21%,并增加了代碼推理模式。

但當(dāng)研究人員通過上述三種方法消除裁剪效果時(shí),隨機(jī)獎(jiǎng)勵(lì)沒有帶來任何改進(jìn)。他們推測(cè),這是由于GRPO公式本身的偏見。

在裁剪下,隨機(jī)獎(jiǎng)勵(lì)并不會(huì)教授任務(wù)質(zhì)量,而是觸發(fā)了一種集中效應(yīng),使模型專注于其現(xiàn)有的推理模式分布。

當(dāng)裁剪被禁用時(shí),這種集中機(jī)制完全消失。

作者介紹

Rulin Shao

圖片

Rulin Shao是華盛頓大學(xué)的二年級(jí)博士生,師從Pang Wei Koh教授和Luke Zettlemoyer教授。同時(shí),她還是Meta的訪問研究員,與Scott Yih及Mike Lewis共事。

她在卡內(nèi)基梅隆大學(xué)獲得機(jī)器學(xué)習(xí)碩士學(xué)位,師從Eric Xing教授;本科畢業(yè)于西安交通大學(xué),獲數(shù)學(xué)學(xué)士學(xué)位。

她的研究興趣主要集中在信息檢索與生成模型之間的協(xié)同增效作用。此外,也關(guān)注視覺語言多模態(tài)學(xué)習(xí)以及長上下文建模等領(lǐng)域。

Stella Li

圖片

Stella Li是華盛頓大學(xué)艾倫計(jì)算機(jī)科學(xué)與工程學(xué)院的二年級(jí)博士生,師從Yulia Tsvetkov教授。

此前,她在約翰斯·霍普金斯大學(xué)獲得了計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)(側(cè)重語言學(xué))及應(yīng)用數(shù)學(xué)(側(cè)重統(tǒng)計(jì)學(xué))專業(yè)的學(xué)士和碩士學(xué)位。期間,她曾在學(xué)校的語言與語音處理中心擔(dān)任研究助理,師從Philipp Koehn教授和Kenton Murray教授。

她的研究領(lǐng)域是自然語言處理,尤其是對(duì)運(yùn)用計(jì)算方法建模乃至揭示認(rèn)知過程深感興趣。此外,研究興趣還包括臨床推理、社會(huì)推理、以人為本的NLP、多語言處理等諸多方向。

Rui Xin

圖片

Rui Xin是華盛頓大學(xué)的一名博士生,師從Pang Wei Koh教授和Sewoong Oh教授。

此前,他在杜克大學(xué)獲得數(shù)學(xué)與計(jì)算機(jī)科學(xué)專業(yè)的學(xué)士學(xué)位,師從Cynthia Rudin教授和Margo Seltzer教授。

他的研究興趣是隱私保護(hù)機(jī)器學(xué)習(xí)。

Scott K. Geng

圖片

Scott K. Geng是華盛頓大學(xué)的博士生,師從Pang Wei Koh教授和Ranjay Krishna教授。

此前,他在哥倫比亞大學(xué)獲得數(shù)學(xué)與計(jì)算機(jī)科學(xué)專業(yè)的學(xué)士學(xué)位,師從Carl Vondrick教授和Junfeng Yang教授。

他對(duì)計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域有著廣泛的興趣。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-03 08:38:00

2025-06-03 08:51:00

2024-02-29 12:56:00

AI訓(xùn)練

2025-12-04 14:59:59

DeepSeek模型AI

2025-07-03 09:41:27

2024-10-30 12:58:48

2025-05-16 08:58:09

2024-11-07 22:59:36

2023-02-14 09:28:35

2025-06-05 03:00:00

AutoRefineRAGLLM

2023-11-27 13:19:54

模型訓(xùn)練

2025-09-18 08:05:39

2025-05-12 08:24:01

2023-03-02 11:44:08

AI技術(shù)

2009-02-17 13:44:57

短信漏洞N73短信門

2025-03-11 08:50:00

2025-05-12 14:23:42

AI算法訓(xùn)練

2023-04-03 09:56:22

模型系統(tǒng)

2024-10-29 15:29:06

2023-08-18 14:05:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

99视频一区| 亚洲色图激情小说| 欧美哺乳videos| 国产一区在线免费| 国产中文字幕在线播放| a天堂中文在线官网在线| 久久久成人网| 精品区一区二区| 中文字幕成人| 夜夜嗨av一区二区三区中文字幕 | 高清毛片在线看| 99久久久精品免费观看国产蜜| 国产精品免费一区二区三区观看 | 日韩av电影免费在线| 国产精品最新| 欧美人成在线视频| 成人动漫一区| 精品免费99久久| 日韩av地址| 亚洲黄色在线视频| 天天天干夜夜夜操| 北条麻妃一区二区三区| 国产精品专区h在线观看| 卡通动漫精品一区二区三区| 欧美无人高清视频在线观看| 国产伦子伦对白在线播放观看| 久久久久久久一区二区| 影音先锋在线播放| 欧洲日韩一区二区三区| 欧美另类自拍| 大桥未久av一区二区三区| 国产一级激情| 亚洲人午夜精品天堂一二香蕉| 欧美少妇性生活视频| av中文字幕不卡| 日本男女交配视频| 成人永久aaa| 丝袜人妻一区二区三区| 国产成人亚洲综合a∨猫咪| 色呦呦网站入口| 国产一区二区在线视频| 喜爱夜蒲2在线| 国产98色在线|日韩| 2018日日夜夜| 高清不卡在线观看| 97碰在线视频| 久久精品视频在线免费观看 | 国产精品日韩一区二区| 欧洲一区二区三区免费视频| 国产一区精品在线| 不卡av日日日| 欧美成人aaa| xxxxx成人.com| 亚洲欧洲激情在线| 日本成人中文| 久久久久久成人精品| 婷婷成人影院| 成人黄色免费片| 99视频精品全国免费| 999国内精品视频在线| 99xxxx成人网| 黄色污污在线观看| 日本一区二区综合亚洲| 成人福利视频导航| 欧美私人免费视频| 成av人片在线观看www| 久久久成人av| 欧美日韩中字| 国产精品免费一区二区三区四区| 欧美亚洲一级| 尤物av无码色av无码| 亚洲蜜桃精久久久久久久| 免费在线超碰| 日韩精品在线免费| eeuss鲁片一区二区三区| 国产精品99久久久久久www| 你懂的国产精品永久在线| 五月婷婷综合色| 国产亚洲精品精华液| 黄色片视频在线观看| 亚洲精品97久久| 18国产精品| 成人免费91在线看| 国产激情一区二区三区四区| 国产特级嫩嫩嫩bbb| 国产精品一区一区| siro系绝美精品系列| 国产精品成人在线观看| 成人免费91| 日日碰狠狠丁香久燥| 精品美女一区二区| 色天下一区二区三区| 欧美国产视频一区二区| 亚洲h在线观看| 成人精品国产亚洲| 欧美激情伊人电影| 国产女同性恋一区二区| 久久亚洲精精品中文字幕| 久久精品国产sm调教网站演员| 亚洲乱码国产乱码精品精天堂| 精品一区二区三区影院在线午夜| 在线成人av观看| 啊啊啊国产视频| 国产乱人伦真实精品视频| 欧美精品乱码久久久久久| 国产精品一区二区三区99| 日韩理论电影中文字幕| 在线成人性视频| 久久久久久久久亚洲| 亚洲日本在线看| 91福利国产在线观看菠萝蜜| 牛人盗摄一区二区三区视频| 亚洲国产精品久久91精品| 91蝌蚪国产九色| 毛片电影在线| 国产日本视频| 国产精品88a∨| 久久视频在线观看免费| av综合在线播放| 一区二区蜜桃| 久久亚洲精精品中文字幕| 污视频网站免费看| 992tv成人免费影院| 色偷偷一区二区三区| 日本不卡视频一二三区| 日韩最新在线| 午夜影院在线播放| 婷婷五月在线视频| 免费高清成人| 97超碰人人看人人 | 国产精品超碰97尤物18| 日韩国产在线观看| 2020国产精品小视频| 亚洲人性生活视频| 岛国毛片在线播放| 性欧美大战久久久久久久| 日产精品久久久一区二区| 精品国产aⅴ麻豆| 精品伦理一区二区三区| 久久久久久久一区二区| www.欧美免费| 精品国产伦一区二区三区观看体验| 亚洲视频 欧洲视频| 国产人久久人人人人爽| 国模大胆一区二区三区| 亚洲欧美伊人| 黄色国产在线| 男人的天堂www| 日韩精品 欧美| 欧美日韩福利在线| 国产精品久久久久久久乖乖| 一本色道久久综合亚洲精品婷婷 | 欧美欧美黄在线二区| 人成在线免费视频| 国产精品大陆在线观看| 丰满岳妇乱一区二区三区| 日韩a级大片| 粉嫩粉嫩芽的虎白女18在线视频| 91精品国产自产在线| 亚洲的天堂在线中文字幕| 中文子幕无线码一区tr| 亚洲国产mv| 精品国产18久久久久久洗澡| 金瓶狂野欧美性猛交xxxx| 最近久乱中文字幕| 色老头一区二区三区在线观看| 日本一区二区三级电影在线观看| 日韩美女毛片| 亚洲专区**| 精产国产伦理一二三区| 亚洲xxx大片| 在线观看精品一区| 日韩成人精品在线观看| 国产成人77亚洲精品www| 91网站在线观看免费| 在线观看国产欧美| 国产午夜亚洲精品羞羞网站| 在线亚洲成人| 2023国产精品久久久精品双| 国产精品1区在线| 97影院秋霞午夜在线观看| 高清国产福利在线观看| 久久久国产欧美| 国产精品秘入口| a级片在线免费| 91av在线影院| 亚洲主播在线播放| 欧美精选在线| av成人影院在线| 少妇高潮毛片色欲ava片| 久热国产精品视频| 亚洲欧美一区二区久久| 国内激情视频在线观看| 精品国产亚洲一区二区三区大结局| 成人免费网站www网站高清| 好吊日av在线| 免费在线看v| 黄色av电影在线观看| 欧美家庭影院| av在线日韩|