国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

DeepResearch離真正實用還有多遠?OPPO團隊揭示14種核心失敗模式

人工智能
本文介紹了FINDER和DEFT,作為首個在任務和過程層面統一評估和診斷深度研究智能體的框架。通過整合419項基于檢查清單的評估和14類失敗分類法,研究揭示了當前智能體的核心問題不在于理解指令,而在于證據信息檢索、綜合和推理韌性。

深度研究智能體離真正實用還有多遠?OPPO團隊揭示14種核心失敗模式

圖片圖片

論文鏈接:https://arxiv.org/pdf/2512.01948

代碼數據:https://github.com/OPPO-PersonalAI/FINDER_DEFT

筆者讀了下這個篇論文,確實非常細致地總結了當前DeepResearch常見的問題,如果不想讀論文,小編整理了一個表格(DeepResear失敗模式的分類體系),下面是省流版,DEFT (Deep rEsearch Failure Taxonomy)。

核心維度
(Level 1)

代碼

細分模式名稱
(Level 2)

現象定義與描述

典型特征

一、推理層


(Reasoning)
 大腦與規劃


1-1-FUR

需求理解失敗


Failure to Understand Requirements


智能體未能正確解讀用戶的核心意圖或上下文需求,僅關注表面關鍵詞,導致產出偏離目標。

審題不清
答非所問


1-2-LAD

分析深度不足


Lack of Analytical Depth


未能探究復雜問題的底層機制或結構性約束,僅依賴淺層邏輯或簡化框架,分析缺乏嚴謹性。

浮于表面
缺乏洞察


1-3-LAS

分析范圍局限


Limited Analytical Scope


面對多維任務時認知視野受限,分析局限于部分維度,無法捕捉整體結構或跨維度的關系。

視野狹窄
盲人摸象


1-4-RPS

規劃策略僵化


Rigid Planning Strategy


堅持固定的線性執行計劃,無法根據中間檢索結果或反饋動態調整策略,導致錯誤傳導。

不知變通
一條道走到黑

二、檢索層


(Retrieval)
 手眼與獲取


2-1-IIA

外部信息獲取不足


Insufficient Info Acquisition


未能主動獲取必要的外部信息,過度依賴模型內部訓練知識(幻覺高發區),導致內容過時或缺乏實證。

搜不到/懶得搜
吃老本


2-2-IHD

信息處理缺陷


Information Handling Deficiency


即使搜到了信息,也未能正確提取、篩選或利用關鍵信息來滿足細節要求。

抓不住重點
信息遺漏


2-3-IIF

信息整合失敗


Information Integration Failure


在處理多源信息時,未能解決事實沖突或邏輯矛盾,導致輸出包含不一致的數據或觀點。

邏輯打架
前后矛盾


2-4-IRM

信息表征錯位


Info Representation Misalignment


未能根據需求區分信息的權威性,例如用低質量信源(營銷號)支撐專業論點。

信源引用不當
權威性缺失


2-5-VMF

驗證機制缺失


Verification Mechanism Failure


在生成前未對關鍵信息進行交叉核對,導致直接采納了錯誤的檢索結果或幻覺。

不查證
輕信錯誤信息

三、生成層


(Generation)
 表達與輸出


3-1-RCP

冗余內容堆砌


Redundant Content Piling


缺乏實質性內容時,通過堆砌重復信息或車轱轆話來填補篇幅,制造"詳盡"的假象。

注水嚴重
廢話連篇


3-2-SOD

結構組織混亂


Structural Organization Dysfunction


缺乏整體協調性,章節之間割裂,未能平衡各維度的覆蓋面,輸出碎片化。

邏輯混亂
結構松散


3-3-CSD

內容規范偏差


Content Specification Deviation


輸出不符合特定的行業標準、文風、格式或語氣要求(如將學術報告寫成博客)。

格式不對
不專業


3-4-DAR

缺乏分析嚴謹性


Deficient Analytical Rigor


忽視任務可行性,省略不確定性說明,使用模糊語言,或在無證據支持下過度自信。

盲目自信
缺乏嚴謹度


3-5-SCF

策略性內容捏造


Strategic Content Fabrication
高危模式


為了營造"學術/專業"的假象,編造看似合理但不存在的術語、方法論、數據或參考文獻。

一本正經胡說八道
偽造證據

一、研究背景:深度研究智能體的理想與現實

任務定義

深度研究智能體(Deep Research Agents, DRAs)旨在自動化生成分析師級別的研究報告,通過迭代式的信息檢索和綜合分析來完成復雜的研究任務。這類系統需要具備網絡規模的信息搜索、數據檢索和內容合成能力,能夠產出傳統上需要數小時人工勞動才能完成的綜合性報告。

研究動機

盡管深度研究智能體在學術研究、商業情報和知識管理等領域展現出巨大應用潛力,但它們在實際報告生成任務中仍然表現不佳。主要問題包括:

  1. 現有基準測試的局限性:大多數基準測試都是針對問答(QA)任務設計的,無法充分捕捉實際深度研究場景中對報告質量、準確性、深度和邏輯連貫性的嚴格要求
  2. 任務復雜度不足:許多開放式基準的任務來自大語言模型驅動的采樣或合成,導致與人類實際需求存在偏差,復雜度不夠
  3. 評估指標主觀性強:由于研究報告的動態特性,現有基準采用基于作者經驗或領域知識的主觀評估指標,不同基準使用不同的度量標準,缺乏統一標準

核心貢獻

為解決這些問題,OPPO AI智能體團隊提出了兩大創新工具:

  1. FINDER(Fine-grained DEepResearch bench):一個細粒度基準測試,包含100個專家精心策劃的研究任務和419個結構化檢查清單項,標準化了報告結構、分析深度和事實依據
  2. DEFT(Deep rEsearch Failure Taxonomy)首個針對深度研究智能體的失敗分類法,包含14種細粒度失敗模式,涵蓋推理、檢索和生成三個核心維度

圖片圖片

如圖1所示,FINDER通過明確的指導實現了更結構化和可復現的評估。

二、相關工作:從封閉式問答到開放式報告生成

封閉式評估的局限

早期深度研究智能體的工作主要采用面向通用人工智能(AGI)的數據集作為評估基準,最具代表性的包括GAIA和HLE。隨著領域發展,研究者提出了各種專門化基準測試。

然而,這些數據集雖然具有挑戰性,但都屬于封閉式評估,具有標準答案。它們忽視了報告生成的評估,與深度研究的實際需求不匹配。

開放式基準的探索

相比之下,開放式基準將深度研究視為沒有唯一解決方案的任務:

  • DeepResearch Bench:包含100個博士級問題,涵蓋22個領域,引入了RACE(報告質量)和FACT(檢索有效性)評估框架
  • Mind2Web 2:包含130個時變的日常任務,提出"智能體即裁判"框架
  • DeepResearchGym:提供沙盒環境和可復現的搜索API
  • DeepScholar-Bench:通過內容覆蓋度、引用準確性和組織質量自動評估研究綜合能力
  • DRBench:聚焦企業場景,評估長篇分析報告

現有問題

盡管這些基準取得了進展,但由于研究報告的動態特性,它們都采用主觀評估指標,缺乏統一標準,這限制了生成報告的實用性。

三、核心方法:FINDER基準與DEFT分類法

3.1 FINDER:細粒度深度研究基準

FINDER基于DeepResearch Bench進行改進,主要包含兩個關鍵創新:

(1)提示詞精煉(Prompt Refinement)

為解決原始DeepResearch Bench中查詢過于簡短的問題,團隊邀請七位領域專家擴展查詢內容,明確規定了:

  • 報告長度
  • 學科范圍
  • 呈現格式
  • 其他具體要求

如圖A.1所示,精煉后的查詢更長,意味著更高的任務規范性和研究復雜度。

圖片圖片

(2)檢查清單構建(Checklist Construction)

專家為每個查詢創建3-5個檢查清單項,這些清單有兩個目的:

  1. 組織和構建查詢中的現有信息
  2. 補充未明確提及但與查詢相關的內容要求和約束

團隊使用Gemini 2.5 Flash對初始檢查清單進行迭代優化,消除語義不完整、表達模糊或與報告無關的項目。

最終結果:為100個查詢生成了419個檢查清單項,每個查詢包含3-5個清單。

3.2 DEFT:失敗分類法的系統構建

DEFT是首個專門針對深度研究智能體的失敗分類法,采用人類-AI協作框架,基于扎根理論(Grounded Theory)方法論構建。

構建流程三階段

階段一:開放式編碼(Open Coding)

  • 概念類別生成:選擇5個不同模型家族的大語言模型(Claude Opus 4.1、Gemini 2.5 Pro、Grok 4、DeepSeek-V3.1、Qwen3-Max-Preview)作為編碼器
  • 動態編碼本:維護一個動態更新的概念清單 ,其中  表示概念名稱, 表示其簡要描述
  • 概念優化:使用Seed1.5-Embedding識別余弦相似度 ≥ 0.6 的概念對并進行合并,最終產生51個概念

階段二:主軸編碼(Axial Coding)

  • 基于編碼者間信度(ICR)評估進行三輪編碼
  • 采用Krippendorff's Alpha系數衡量編碼一致性:

其中  表示觀察到的不一致性, 表示預期的隨機不一致性

  • 邀請三位領域專家獨立標注樣本,每輪標注后進行約5小時的討論以解決分歧
  • 最終確定14個主軸類別

階段三:選擇性編碼(Selective Coding)

綜合前兩個階段的概念和類別,建立三個核心類別

  1. 推理(Reasoning)
  2. 檢索(Retrieval)
  3. 生成(Generation)

這三個核心類別在功能上形成完整閉環,在時間上交織遞進,共同支撐對智能體失敗機制的系統理解。

正向分類法指標

為建立統一的、面向成功的評估框架,團隊引入正向性能指標,將錯誤計數轉換為有界、可解釋的分數:

其中:

  • 表示類別中觀察到的錯誤數量
  • 表示數據集總大小
  • 當時,模型獲得最大分數 
  • 隨著錯誤增加, 單調遞減趨近于0

圖片圖片

四、實驗效果:揭示深度研究智能體的真實能力

4.1 評估對象

團隊評估了三類代表性系統:

  1. 專有API:Gemini-2.5-Pro Deep Research、O3 Deep Research、O4-Mini Deep Research、Perplexity Deep Research
  2. 開源模型:MiroThinker、WebThinker、AFM
  3. 智能體框架:OWL、OpenManus、MiroFlow(英文和中文版本)

4.2 FINDER性能分析

圖片圖片

RACE和FACT框架表現

RACE框架(報告質量評估):

  • Gemini 2.5 Pro Deep Research 表現最佳,總分50.95
  • Kimi K2(48.28)和O3 Deep Research(46.25)緊隨其后
  • 開源模型和智能體框架中,WebThinker和MiroFlow在指令遵循方面表現突出

FACT框架(檢索有效性評估):

  • O3 Deep Research 表現卓越,事實精確度65.98,引用可靠性76.58
  • Gemini 2.5 Pro Deep Research是有力的競爭者
  • 其他模型得分較低,可能源于升級后的提示詞要求更密集的推理和更嚴格的引用驗證

正向分類法指標洞察

  • Gemini 在推理、檢索和生成三個維度上都取得了持續高分,顯示出良好的任務理解和綜合協調能力
  • Kimi K2和O4-Mini 展現出卓越的推理能力(超過Gemini)和強大的檢索性能,但在生成階段急劇下降
  • MiroFlow 等開放框架顯示出中等穩定性,但同樣在最終生成階段面臨瓶頸

關鍵發現:優秀系統在理解、證據收集和綜合之間保持平衡,而非過度優化單一階段。

檢查清單準確性

  • MiroFlow-English 得分最高(72.19%)
  • Tongyi-DeepResearch(67.54%)、Kimi K2(66.59%)和Gemini 2.5 Pro(63.01%)形成競爭性集群
  • 這表明系統化的推理規范(無論通過框架設計還是內在模型能力)決定了研究可靠性

4.3 DRB vs FINDER對比

圖片圖片

RACE框架:FINDER下的總分與DRB基本一致,因為兩者共享相同的基于參考的評估流程

FACT模塊:顯示出更明顯的差異

  • 大多數系統在引用準確性(C.Acc.)和有效性(E.Cit.)上都有所下降
  • 這反映了FINDER修訂后的提示詞設計增加了難度,施加了更嚴格的事實性和引用驗證要求

結論:FINDER對推理透明度和來源可靠性實施了更強的約束,暴露了在DRB原始配置下不太明顯的模型弱點。

4.4 DEFT失敗分類法深度分析

圖片圖片

一級和二級類別結構

一級類別(核心)

二級類別(主軸)

占比

推理(Reasoning)

1-1-FUR 需求理解失敗

10.6%


1-2-LAD 分析深度不足

11.1%


1-3-LAS 分析范圍受限

0.9%


1-4-RPS 規劃策略僵化

5.6%

檢索(Retrieval)

2-1-IIA 外部信息獲取不足

16.3%


2-2-IHD 信息處理缺陷

2.3%


2-3-IIF 信息整合失敗

2.9%


2-4-IRM 信息表示不一致

2.9%


2-5-VMF 驗證機制失敗

8.7%

生成(Generation)

3-1-RCP 冗余內容堆砌

2.5%


3-2-SOD 結構組織失調

2.3%


3-3-CSD 內容規范偏離

10.7%


3-4-DAR 分析嚴謹性不足

4.3%


3-5-SCF 策略性內容捏造

19.0%

三大核心洞察

洞察1:推理韌性而非推理強度是關鍵

推理類別的失敗比例相對較低(28.14%),表明大多數DRAs能夠繼承底層大模型在語義理解和基本推理方面的優勢。但是:

  • 1-4-RPS(規劃策略僵化) 表明智能體在動態任務調度和自適應推理方面仍有局限
  • 線性執行邏輯往往無法有效響應任務演化或中間反饋

團隊提出推理韌性(Reasoning Resilience)概念:

  • 推理韌性:智能體在動態任務環境中維持和調整推理狀態的能力
  • 推理強度:理想條件下的分析或推理能力上限

深度研究任務常伴隨反饋、演化和噪聲。只有具備推理韌性的系統才能持續檢測偏差、重新校準推理路徑、調整策略,從而在深度、廣度、準確性和一致性之間取得平衡。

洞察2:檢索不是簡單的請求-接收,而是閉環流程

圖片圖片

檢索類別的失敗(33.10%)沿著任務工作流展現出階段特定的相關性:

  1. 初始階段:2-1-IIA(信息獲取不足)占16.3%,反映智能體無法有效啟動或執行信息搜索
  2. 中間階段:2-2-IHD、2-3-IIF、2-4-IRM發生在初步檢索成功后,對應信息利用、整合和表示的失敗
  3. 終端階段:2-5-VMF(驗證機制失敗)占8.7%,智能體在遇到關鍵或沖突信息時未能進行交叉檢查

解決方案:增強智能體的連貫知識管理能力

  • 初始檢索階段:建立明確的決策框架(何時檢索、檢索什么、如何使用)
  • 中間階段:實施顯式機制監控信息狀態并動態調整檢索策略
  • 最終階段:激活強制驗證機制對關鍵事實進行交叉檢查

洞察3:加強生成過程的約束和驗證至關重要

生成類別展現出最高的失敗比例(38.76%),特別是:

  • 3-5-SCF(策略性內容捏造)占19.0%,智能體傾向于生成看似專業但實際上缺乏事實支持的術語、方法或引用,以營造學術嚴謹的假象
  • 3-1-RCP(冗余內容堆砌)與3-5-SCF在結果上相似,都導致輸出冗長、結構松散、缺乏實質性見解

建議:預約束和后驗證應擴展到生成維度,包括文本組織、語言結構和格式標準。

4.5 DEFT有效性驗證

(1)編碼者間信度(ICR)評估

圖片圖片

團隊計算了人類標注與Gemini 2.5-Flash評估之間的Krippendorff's alpha系數:

  • OpenManus平均系數:0.8203
  • WebThinker平均系數:0.8526
  • 檢查清單準確性系數:0.8025-0.8708

結果表明DEFT框架和檢查清單評估具有強穩定性和客觀可復現性

(2)失敗分布平衡

三個主要維度的失敗頻率分布相對平衡:

  • 推理:28.14%
  • 檢索:33.10%
  • 生成:38.76%

這種平衡表明分類法涵蓋了DRA報告生成中的多樣化挑戰,避免了過度集中于單一失敗類型。

圖片圖片

(3)結構化失敗模式分析

圖片圖片

相關性分析確認了三個連貫的失敗集群:

  1. 流程完整性集群:需求誤解(1.1 FUR)導致不相關或不完整的報告(3.3 CSD)
  2. 內容整合集群:來源整合失敗(2.4 IIF)導致結構混亂(3.2 SOD)和高度冗余(3.1 RCP)
  3. 證據嚴謹性集群:檢索不佳(2.1 IIA)導致"自信捏造"(3.5 SCF)

這些系統性失敗路徑證實DEFT捕捉到了重要的真實世界機制。

五、論文總結

本文介紹了FINDER和DEFT,作為首個在任務和過程層面統一評估和診斷深度研究智能體的框架。通過整合419項基于檢查清單的評估和14類失敗分類法,研究揭示了當前智能體的核心問題不在于理解指令,而在于證據信息檢索、綜合和推理韌性

實驗表明,即使是表現最佳的系統也經常捏造缺乏支持的內容,并且未能保持方法論的嚴謹性。 FINDER和DEFT為社區提供了可操作的工具,推動深度研究系統從簡單的答案準確性邁向可靠、透明和可驗證的方向。這項工作為理解和改進深度研究智能體提供了重要的診斷框架,標志著該領域向實用化邁出的關鍵一步。

責任編輯:武曉燕 來源: ChallengeHub
相關推薦

2021-10-13 22:41:24

人工智能數據信息技術

2022-04-20 12:19:35

400G中國電信中國移動

2011-07-21 08:53:42

HTML 5

2015-11-30 11:02:00

5G通信技術

2024-08-12 09:40:00

模型數據

2018-09-27 15:42:38

人工智能看病醫生

2012-08-31 10:07:34

VMware

2018-09-30 11:20:07

人工智能機器學習深度學習

2012-11-27 09:23:15

云計算IT

2023-03-02 10:31:01

6G

2022-11-16 16:05:02

2018-08-30 10:14:20

代碼開發機器

2016-11-21 16:25:10

5G霸主中國

2021-03-25 20:23:09

人工智能AI肺結核

2020-10-15 08:58:38

人工智能機器學習技術

2019-03-08 09:36:36

IT創業者技術

2019-10-12 13:57:29

5G

2018-05-02 11:38:00

人工智能AI

2022-01-05 22:31:26

數字人民幣加密貨幣區塊鏈

2019-07-09 16:25:42

區塊鏈數字貨幣比特幣
點贊
收藏

51CTO技術棧公眾號

日韩经典一区| 亚洲综合不卡| 色yeye香蕉凹凸一区二区av| 亚洲三级色网| 国产高清免费在线播放| 亚洲精品一区在线观看| 日本成人在线不卡视频| h片在线观看视频免费| 大桥未久一区二区| 亚洲天堂男人天堂| 91网站黄www| 成人精品一区二区三区免费 | 澳门久久精品| 亚洲专区国产精品| 成人妖精视频yjsp地址| 成人国产一区| 成人区精品一区二区| 欧美日韩国产另类一区| 视频一区二区中文字幕| 欧美日韩电影免费看| 国产免费人做人爱午夜视频| 国产精品青草久久久久福利99| 成人午夜免费视频| 日韩中文字幕一区二区高清99| 草草久视频在线观看电影资源| 亚洲高清在线观看| 91在线免费视频观看| 蜜臀av免费一区二区三区| 国模精品一区二区| 椎名由奈jux491在线播放 | 91在线观看视频| 国产一区二区三区四区二区| 欧美69xxxx| 黄色激情在线视频| 日本三级久久久| 国产福利精品导航| 露出调教综合另类| 日本特级黄色大片| 欧美大片免费看| 色噜噜狠狠色综合欧洲selulu| 蓝色福利精品导航| 精品久久对白| 色欧美激情视频在线| 性欧美大战久久久久久久| 国产精品免费观看在线| 精品国产乱码久久久久久久| 国产欧美日韩激情| 国产黄色精品| 毛片视频免费观看| 欧美成人三级视频网站| 韩国三级电影一区二区| 欧美亚洲大陆| 青青在线视频免费| 高清av免费一区中文字幕| 一个色综合导航| 污片在线观看一区二区| 国内成人精品2018免费看| 美女久久久久| 黄视频网站在线观看| 在线天堂日本| 91传媒免费视频| 精品无人国产偷自产在线| 国产精品久久久久影院| 亚洲一区二区网站| 草莓视频一区二区三区| 日本www在线| 先锋在线亚洲| 三年中国中文在线观看免费播放 | 亚洲一区二区三区爽爽爽爽爽| 国产精品777777在线播放| 992tv快乐视频| 国产精品影片在线观看| 亚洲欧美国产一区二区三区| 午夜精品久久久久久久久久| 国产精品538一区二区在线| 91精品国产自产在线观看永久∴| 日本h片在线看| 妞干网视频在线观看| 少妇激情综合网| 欧美日韩一区二区三区在线看| 欧美天天视频| 日本免费一区二区视频| 国产写真视频在线观看| 最近中文字幕mv第三季歌词| 缅甸午夜性猛交xxxx| 欧美日韩国产不卡在线看| 国产不卡在线观看| 在线看片第一页欧美| 欧美日本一区二区在线观看| 亚洲丝袜精品丝袜在线| 成人激情开心网| 激情亚洲小说| 国产www视频在线观看| 黄色av网址在线免费观看| 邪恶网站在线观看| 国产美女永久无遮挡| 欧美日韩一区二区三| 91精品视频在线看| 欧美一级在线亚洲天堂| 久久不射电影网| 亚洲欧美福利一区二区| 国产一区二区不卡在线| 99视频一区| 手机在线观看av网站| 91在线不卡| 在线麻豆国产传媒1国产免费| 三级4级全黄60分钟| 正在播放91九色| 品久久久久久久久久96高清| 91九色露脸| 欧美精品一区男女天堂| 精品国产乱码久久久久酒店| 一色桃子久久精品亚洲| 99久久精品免费看国产免费软件| 精品在线观看视频| 日韩**一区毛片| 久久电影一区| 激情中国色综合| cao在线视频| 日本一极黄色片| 91.com在线| 妺妺窝人体色www看人体| 一本一道久久a久久精品综合| 久久精品一本久久99精品| 日韩福利在线播放| 亚洲成成品网站| 日韩欧美国产电影| 91视频在线观看免费| 美女尤物国产一区| ccyy激情综合| 综合激情网...| 91国内精品| 极品尤物一区| 欧美黑白配在线| 妖精视频一区二区三区| 国产亚洲电影| 亚欧美无遮挡hd高清在线视频| 亚洲老妇激情| 在线观看视频日韩| 久久成人一区| 精品写真视频在线观看| 国产精品一卡二卡| 91玉足脚交白嫩脚丫在线播放| 国产亚洲精品资源在线26u| 国产精品乱子久久久久| 亚洲激情欧美激情| 岛国精品视频在线播放| 成人动漫一区二区三区| 成人在线综合网| 97久久精品人人澡人人爽| www日韩大片| 中文字幕视频一区| 亚洲国产精品一区二区久久恐怖片| 免费看欧美美女黄的网站| 美女一区二区三区在线观看| 国产一区二区三区黄视频 | 亚洲精品v亚洲精品v日韩精品| 成人精品在线视频| 国产精品三级在线| 国产在线精品播放| 国产一区国产精品| 欧美中文一区二区三区| 欧美区在线观看| 亚洲国产精品热久久| 国产午夜精品一区二区三区| 精品国产一区二区三区四区在线观看 | 亚洲激情免费观看| 中文字幕不卡av| 欧美日韩高清影院| 欧美mv日韩mv亚洲| 中文字幕亚洲无线码在线一区| 欧美成人精品激情在线观看| 国产91亚洲精品| 久久国产一区| 欧美一级淫片播放口| 成人欧美一区二区三区黑人| 日本精品一区| 少妇高潮喷水久久久久久久久久| 久久久久久一区| 精品日韩在线播放| 国产成人精品视频ⅴa片软件竹菊| 色琪琪丁香婷婷综合久久| 国产精品333| 日韩av大全| 1区2区3区欧美| 亚洲大尺度视频在线观看| 欧美欧美欧美欧美| 中文字幕国产精品| 国产精品久久久精品| 理论片在线不卡免费观看| 国产成+人+综合+亚洲欧美丁香花| 精品卡一卡二| 又粗又黑又大的吊av| 在线麻豆国产传媒1国产免费| 午夜av在线免费观看| 在线免费观看黄色片| 国产美女福利在线观看| 综合久久成人| 男人天堂欧美日韩| 2021国产精品久久精品|