DeepResearch離真正實用還有多遠？OPPO團隊揭示14種核心失敗模式

作者：ChallengeHub 2025-12-04 00:15:00

本文介紹了FINDER和DEFT，作為首個在任務和過程層面統一評估和診斷深度研究智能體的框架。通過整合419項基于檢查清單的評估和14類失敗分類法，研究揭示了當前智能體的核心問題不在于理解指令，而在于證據信息檢索、綜合和推理韌性。

深度研究智能體離真正實用還有多遠？OPPO團隊揭示14種核心失敗模式

圖片

論文鏈接：https://arxiv.org/pdf/2512.01948
代碼數據：https://github.com/OPPO-PersonalAI/FINDER_DEFT

筆者讀了下這個篇論文，確實非常細致地總結了當前DeepResearch常見的問題，如果不想讀論文，小編整理了一個表格(DeepResear失敗模式的分類體系)，下面是省流版，DEFT (Deep rEsearch Failure Taxonomy)。

核心維度 (Level 1)	代碼	細分模式名稱 (Level 2)	現象定義與描述	典型特征
一、推理層 (Reasoning) 大腦與規劃	1-1-FUR	需求理解失敗 Failure to Understand Requirements	智能體未能正確解讀用戶的核心意圖或上下文需求，僅關注表面關鍵詞，導致產出偏離目標。	審題不清答非所問
	1-2-LAD	分析深度不足 Lack of Analytical Depth	未能探究復雜問題的底層機制或結構性約束，僅依賴淺層邏輯或簡化框架，分析缺乏嚴謹性。	浮于表面缺乏洞察
	1-3-LAS	分析范圍局限 Limited Analytical Scope	面對多維任務時認知視野受限，分析局限于部分維度，無法捕捉整體結構或跨維度的關系。	視野狹窄盲人摸象
	1-4-RPS	規劃策略僵化 Rigid Planning Strategy	堅持固定的線性執行計劃，無法根據中間檢索結果或反饋動態調整策略，導致錯誤傳導。	不知變通一條道走到黑
二、檢索層 (Retrieval) 手眼與獲取	2-1-IIA	外部信息獲取不足 Insufficient Info Acquisition	未能主動獲取必要的外部信息，過度依賴模型內部訓練知識（幻覺高發區），導致內容過時或缺乏實證。	搜不到/懶得搜吃老本
	2-2-IHD	信息處理缺陷 Information Handling Deficiency	即使搜到了信息，也未能正確提取、篩選或利用關鍵信息來滿足細節要求。	抓不住重點信息遺漏
	2-3-IIF	信息整合失敗 Information Integration Failure	在處理多源信息時，未能解決事實沖突或邏輯矛盾，導致輸出包含不一致的數據或觀點。	邏輯打架前后矛盾
	2-4-IRM	信息表征錯位 Info Representation Misalignment	未能根據需求區分信息的權威性，例如用低質量信源（營銷號）支撐專業論點。	信源引用不當權威性缺失
	2-5-VMF	驗證機制缺失 Verification Mechanism Failure	在生成前未對關鍵信息進行交叉核對，導致直接采納了錯誤的檢索結果或幻覺。	不查證輕信錯誤信息
三、生成層 (Generation) 表達與輸出	3-1-RCP	冗余內容堆砌 Redundant Content Piling	缺乏實質性內容時，通過堆砌重復信息或車轱轆話來填補篇幅，制造"詳盡"的假象。	注水嚴重廢話連篇
	3-2-SOD	結構組織混亂 Structural Organization Dysfunction	缺乏整體協調性，章節之間割裂，未能平衡各維度的覆蓋面，輸出碎片化。	邏輯混亂結構松散
	3-3-CSD	內容規范偏差 Content Specification Deviation	輸出不符合特定的行業標準、文風、格式或語氣要求（如將學術報告寫成博客）。	格式不對不專業
	3-4-DAR	缺乏分析嚴謹性 Deficient Analytical Rigor	忽視任務可行性，省略不確定性說明，使用模糊語言，或在無證據支持下過度自信。	盲目自信缺乏嚴謹度
	3-5-SCF	策略性內容捏造 Strategic Content Fabrication 高危模式	為了營造"學術/專業"的假象，編造看似合理但不存在的術語、方法論、數據或參考文獻。	一本正經胡說八道偽造證據

一、研究背景：深度研究智能體的理想與現實

任務定義

深度研究智能體（Deep Research Agents, DRAs）旨在自動化生成分析師級別的研究報告，通過迭代式的信息檢索和綜合分析來完成復雜的研究任務。這類系統需要具備網絡規模的信息搜索、數據檢索和內容合成能力，能夠產出傳統上需要數小時人工勞動才能完成的綜合性報告。

研究動機

盡管深度研究智能體在學術研究、商業情報和知識管理等領域展現出巨大應用潛力，但它們在實際報告生成任務中仍然表現不佳。主要問題包括：

現有基準測試的局限性：大多數基準測試都是針對問答（QA）任務設計的，無法充分捕捉實際深度研究場景中對報告質量、準確性、深度和邏輯連貫性的嚴格要求
任務復雜度不足：許多開放式基準的任務來自大語言模型驅動的采樣或合成，導致與人類實際需求存在偏差，復雜度不夠
評估指標主觀性強：由于研究報告的動態特性，現有基準采用基于作者經驗或領域知識的主觀評估指標，不同基準使用不同的度量標準，缺乏統一標準

核心貢獻

為解決這些問題，OPPO AI智能體團隊提出了兩大創新工具：

FINDER（Fine-grained DEepResearch bench）：一個細粒度基準測試，包含100個專家精心策劃的研究任務和419個結構化檢查清單項，標準化了報告結構、分析深度和事實依據
DEFT（Deep rEsearch Failure Taxonomy）：首個針對深度研究智能體的失敗分類法，包含14種細粒度失敗模式，涵蓋推理、檢索和生成三個核心維度

圖片

如圖1所示，FINDER通過明確的指導實現了更結構化和可復現的評估。

二、相關工作：從封閉式問答到開放式報告生成

封閉式評估的局限

早期深度研究智能體的工作主要采用面向通用人工智能（AGI）的數據集作為評估基準，最具代表性的包括GAIA和HLE。隨著領域發展，研究者提出了各種專門化基準測試。

然而，這些數據集雖然具有挑戰性，但都屬于封閉式評估，具有標準答案。它們忽視了報告生成的評估，與深度研究的實際需求不匹配。

開放式基準的探索

相比之下，開放式基準將深度研究視為沒有唯一解決方案的任務：

DeepResearch Bench：包含100個博士級問題，涵蓋22個領域，引入了RACE（報告質量）和FACT（檢索有效性）評估框架
Mind2Web 2：包含130個時變的日常任務，提出"智能體即裁判"框架
DeepResearchGym：提供沙盒環境和可復現的搜索API
DeepScholar-Bench：通過內容覆蓋度、引用準確性和組織質量自動評估研究綜合能力
DRBench：聚焦企業場景，評估長篇分析報告

現有問題

盡管這些基準取得了進展，但由于研究報告的動態特性，它們都采用主觀評估指標，缺乏統一標準，這限制了生成報告的實用性。

三、核心方法：FINDER基準與DEFT分類法

3.1 FINDER：細粒度深度研究基準

FINDER基于DeepResearch Bench進行改進，主要包含兩個關鍵創新：

（1）提示詞精煉（Prompt Refinement）

為解決原始DeepResearch Bench中查詢過于簡短的問題，團隊邀請七位領域專家擴展查詢內容，明確規定了：

報告長度
學科范圍
呈現格式
其他具體要求

如圖A.1所示，精煉后的查詢更長，意味著更高的任務規范性和研究復雜度。

圖片

（2）檢查清單構建（Checklist Construction）

專家為每個查詢創建3-5個檢查清單項，這些清單有兩個目的：

組織和構建查詢中的現有信息
補充未明確提及但與查詢相關的內容要求和約束

團隊使用Gemini 2.5 Flash對初始檢查清單進行迭代優化，消除語義不完整、表達模糊或與報告無關的項目。

最終結果：為100個查詢生成了419個檢查清單項，每個查詢包含3-5個清單。

3.2 DEFT：失敗分類法的系統構建

DEFT是首個專門針對深度研究智能體的失敗分類法，采用人類-AI協作框架，基于扎根理論（Grounded Theory）方法論構建。

構建流程三階段

階段一：開放式編碼（Open Coding）

概念類別生成：選擇5個不同模型家族的大語言模型（Claude Opus 4.1、Gemini 2.5 Pro、Grok 4、DeepSeek-V3.1、Qwen3-Max-Preview）作為編碼器
動態編碼本：維護一個動態更新的概念清單，其中表示概念名稱，表示其簡要描述
概念優化：使用Seed1.5-Embedding識別余弦相似度 ≥ 0.6 的概念對并進行合并，最終產生51個概念

階段二：主軸編碼（Axial Coding）

基于編碼者間信度（ICR）評估進行三輪編碼
采用Krippendorff's Alpha系數衡量編碼一致性：

其中表示觀察到的不一致性，表示預期的隨機不一致性

邀請三位領域專家獨立標注樣本，每輪標注后進行約5小時的討論以解決分歧
最終確定14個主軸類別

階段三：選擇性編碼（Selective Coding）

綜合前兩個階段的概念和類別，建立三個核心類別：

推理（Reasoning）
檢索（Retrieval）
生成（Generation）

這三個核心類別在功能上形成完整閉環，在時間上交織遞進，共同支撐對智能體失敗機制的系統理解。

正向分類法指標

為建立統一的、面向成功的評估框架，團隊引入正向性能指標，將錯誤計數轉換為有界、可解釋的分數：

其中：

表示類別中觀察到的錯誤數量
表示數據集總大小
當時，模型獲得最大分數
隨著錯誤增加，單調遞減趨近于0

圖片

四、實驗效果：揭示深度研究智能體的真實能力

4.1 評估對象

團隊評估了三類代表性系統：

專有API：Gemini-2.5-Pro Deep Research、O3 Deep Research、O4-Mini Deep Research、Perplexity Deep Research
開源模型：MiroThinker、WebThinker、AFM
智能體框架：OWL、OpenManus、MiroFlow（英文和中文版本）

4.2 FINDER性能分析

圖片

RACE和FACT框架表現

RACE框架（報告質量評估）：

Gemini 2.5 Pro Deep Research 表現最佳，總分50.95
Kimi K2（48.28）和O3 Deep Research（46.25）緊隨其后
開源模型和智能體框架中，WebThinker和MiroFlow在指令遵循方面表現突出

FACT框架（檢索有效性評估）：

O3 Deep Research 表現卓越，事實精確度65.98，引用可靠性76.58
Gemini 2.5 Pro Deep Research是有力的競爭者
其他模型得分較低，可能源于升級后的提示詞要求更密集的推理和更嚴格的引用驗證

正向分類法指標洞察

Gemini 在推理、檢索和生成三個維度上都取得了持續高分，顯示出良好的任務理解和綜合協調能力
Kimi K2和O4-Mini 展現出卓越的推理能力（超過Gemini）和強大的檢索性能，但在生成階段急劇下降
MiroFlow 等開放框架顯示出中等穩定性，但同樣在最終生成階段面臨瓶頸

關鍵發現：優秀系統在理解、證據收集和綜合之間保持平衡，而非過度優化單一階段。

檢查清單準確性

MiroFlow-English 得分最高（72.19%）
Tongyi-DeepResearch（67.54%）、Kimi K2（66.59%）和Gemini 2.5 Pro（63.01%）形成競爭性集群
這表明系統化的推理規范（無論通過框架設計還是內在模型能力）決定了研究可靠性

4.3 DRB vs FINDER對比

圖片

RACE框架：FINDER下的總分與DRB基本一致，因為兩者共享相同的基于參考的評估流程

FACT模塊：顯示出更明顯的差異

大多數系統在引用準確性（C.Acc.）和有效性（E.Cit.）上都有所下降
這反映了FINDER修訂后的提示詞設計增加了難度，施加了更嚴格的事實性和引用驗證要求

結論：FINDER對推理透明度和來源可靠性實施了更強的約束，暴露了在DRB原始配置下不太明顯的模型弱點。

4.4 DEFT失敗分類法深度分析

圖片

一級和二級類別結構

一級類別（核心）	二級類別（主軸）	占比
推理（Reasoning）	1-1-FUR 需求理解失敗	10.6%
	1-2-LAD 分析深度不足	11.1%
	1-3-LAS 分析范圍受限	0.9%
	1-4-RPS 規劃策略僵化	5.6%
檢索（Retrieval）	2-1-IIA 外部信息獲取不足	16.3%
	2-2-IHD 信息處理缺陷	2.3%
	2-3-IIF 信息整合失敗	2.9%
	2-4-IRM 信息表示不一致	2.9%
	2-5-VMF 驗證機制失敗	8.7%
生成（Generation）	3-1-RCP 冗余內容堆砌	2.5%
	3-2-SOD 結構組織失調	2.3%
	3-3-CSD 內容規范偏離	10.7%
	3-4-DAR 分析嚴謹性不足	4.3%
	3-5-SCF 策略性內容捏造	19.0%

三大核心洞察

洞察1：推理韌性而非推理強度是關鍵

推理類別的失敗比例相對較低（28.14%），表明大多數DRAs能夠繼承底層大模型在語義理解和基本推理方面的優勢。但是：

1-4-RPS（規劃策略僵化） 表明智能體在動態任務調度和自適應推理方面仍有局限
線性執行邏輯往往無法有效響應任務演化或中間反饋

團隊提出推理韌性（Reasoning Resilience）概念：

推理韌性：智能體在動態任務環境中維持和調整推理狀態的能力
推理強度：理想條件下的分析或推理能力上限

深度研究任務常伴隨反饋、演化和噪聲。只有具備推理韌性的系統才能持續檢測偏差、重新校準推理路徑、調整策略，從而在深度、廣度、準確性和一致性之間取得平衡。

洞察2：檢索不是簡單的請求-接收，而是閉環流程

圖片

檢索類別的失敗（33.10%）沿著任務工作流展現出階段特定的相關性：

初始階段：2-1-IIA（信息獲取不足）占16.3%，反映智能體無法有效啟動或執行信息搜索
中間階段：2-2-IHD、2-3-IIF、2-4-IRM發生在初步檢索成功后，對應信息利用、整合和表示的失敗
終端階段：2-5-VMF（驗證機制失敗）占8.7%，智能體在遇到關鍵或沖突信息時未能進行交叉檢查

解決方案：增強智能體的連貫知識管理能力

初始檢索階段：建立明確的決策框架（何時檢索、檢索什么、如何使用）
中間階段：實施顯式機制監控信息狀態并動態調整檢索策略
最終階段：激活強制驗證機制對關鍵事實進行交叉檢查

洞察3：加強生成過程的約束和驗證至關重要

生成類別展現出最高的失敗比例（38.76%），特別是：

3-5-SCF（策略性內容捏造）占19.0%，智能體傾向于生成看似專業但實際上缺乏事實支持的術語、方法或引用，以營造學術嚴謹的假象
3-1-RCP（冗余內容堆砌）與3-5-SCF在結果上相似，都導致輸出冗長、結構松散、缺乏實質性見解

建議：預約束和后驗證應擴展到生成維度，包括文本組織、語言結構和格式標準。

4.5 DEFT有效性驗證

（1）編碼者間信度（ICR）評估

圖片

團隊計算了人類標注與Gemini 2.5-Flash評估之間的Krippendorff's alpha系數：

OpenManus平均系數：0.8203
WebThinker平均系數：0.8526
檢查清單準確性系數：0.8025-0.8708

結果表明DEFT框架和檢查清單評估具有強穩定性和客觀可復現性。

（2）失敗分布平衡

三個主要維度的失敗頻率分布相對平衡：

推理：28.14%
檢索：33.10%
生成：38.76%

這種平衡表明分類法涵蓋了DRA報告生成中的多樣化挑戰，避免了過度集中于單一失敗類型。

圖片

（3）結構化失敗模式分析

圖片

相關性分析確認了三個連貫的失敗集群：

流程完整性集群：需求誤解（1.1 FUR）導致不相關或不完整的報告（3.3 CSD）
內容整合集群：來源整合失敗（2.4 IIF）導致結構混亂（3.2 SOD）和高度冗余（3.1 RCP）
證據嚴謹性集群：檢索不佳（2.1 IIA）導致"自信捏造"（3.5 SCF）

這些系統性失敗路徑證實DEFT捕捉到了重要的真實世界機制。

五、論文總結

本文介紹了FINDER和DEFT，作為首個在任務和過程層面統一評估和診斷深度研究智能體的框架。通過整合419項基于檢查清單的評估和14類失敗分類法，研究揭示了當前智能體的核心問題不在于理解指令，而在于證據信息檢索、綜合和推理韌性。

實驗表明，即使是表現最佳的系統也經常捏造缺乏支持的內容，并且未能保持方法論的嚴謹性。 FINDER和DEFT為社區提供了可操作的工具，推動深度研究系統從簡單的答案準確性邁向可靠、透明和可驗證的方向。這項工作為理解和改進深度研究智能體提供了重要的診斷框架，標志著該領域向實用化邁出的關鍵一步。

責任編輯：武曉燕來源： ChallengeHub

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看