DeepResearch離真正實用還有多遠?OPPO團隊揭示14種核心失敗模式
深度研究智能體離真正實用還有多遠?OPPO團隊揭示14種核心失敗模式
圖片
論文鏈接:https://arxiv.org/pdf/2512.01948
代碼數據:https://github.com/OPPO-PersonalAI/FINDER_DEFT
筆者讀了下這個篇論文,確實非常細致地總結了當前DeepResearch常見的問題,如果不想讀論文,小編整理了一個表格(DeepResear失敗模式的分類體系),下面是省流版,DEFT (Deep rEsearch Failure Taxonomy)。
核心維度 | 代碼 | 細分模式名稱 | 現象定義與描述 | 典型特征 |
一、推理層 (Reasoning) | 1-1-FUR | 需求理解失敗 Failure to Understand Requirements | 智能體未能正確解讀用戶的核心意圖或上下文需求,僅關注表面關鍵詞,導致產出偏離目標。 | 審題不清 |
1-2-LAD | 分析深度不足 Lack of Analytical Depth | 未能探究復雜問題的底層機制或結構性約束,僅依賴淺層邏輯或簡化框架,分析缺乏嚴謹性。 | 浮于表面 | |
1-3-LAS | 分析范圍局限 Limited Analytical Scope | 面對多維任務時認知視野受限,分析局限于部分維度,無法捕捉整體結構或跨維度的關系。 | 視野狹窄 | |
1-4-RPS | 規劃策略僵化 Rigid Planning Strategy | 堅持固定的線性執行計劃,無法根據中間檢索結果或反饋動態調整策略,導致錯誤傳導。 | 不知變通 | |
二、檢索層 (Retrieval) | 2-1-IIA | 外部信息獲取不足 Insufficient Info Acquisition | 未能主動獲取必要的外部信息,過度依賴模型內部訓練知識(幻覺高發區),導致內容過時或缺乏實證。 | 搜不到/懶得搜 |
2-2-IHD | 信息處理缺陷 Information Handling Deficiency | 即使搜到了信息,也未能正確提取、篩選或利用關鍵信息來滿足細節要求。 | 抓不住重點 | |
2-3-IIF | 信息整合失敗 Information Integration Failure | 在處理多源信息時,未能解決事實沖突或邏輯矛盾,導致輸出包含不一致的數據或觀點。 | 邏輯打架 | |
2-4-IRM | 信息表征錯位 Info Representation Misalignment | 未能根據需求區分信息的權威性,例如用低質量信源(營銷號)支撐專業論點。 | 信源引用不當 | |
2-5-VMF | 驗證機制缺失 Verification Mechanism Failure | 在生成前未對關鍵信息進行交叉核對,導致直接采納了錯誤的檢索結果或幻覺。 | 不查證 | |
三、生成層 (Generation) | 3-1-RCP | 冗余內容堆砌 Redundant Content Piling | 缺乏實質性內容時,通過堆砌重復信息或車轱轆話來填補篇幅,制造"詳盡"的假象。 | 注水嚴重 |
3-2-SOD | 結構組織混亂 Structural Organization Dysfunction | 缺乏整體協調性,章節之間割裂,未能平衡各維度的覆蓋面,輸出碎片化。 | 邏輯混亂 | |
3-3-CSD | 內容規范偏差 Content Specification Deviation | 輸出不符合特定的行業標準、文風、格式或語氣要求(如將學術報告寫成博客)。 | 格式不對 | |
3-4-DAR | 缺乏分析嚴謹性 Deficient Analytical Rigor | 忽視任務可行性,省略不確定性說明,使用模糊語言,或在無證據支持下過度自信。 | 盲目自信 | |
3-5-SCF | 策略性內容捏造 Strategic Content Fabrication | 為了營造"學術/專業"的假象,編造看似合理但不存在的術語、方法論、數據或參考文獻。 | 一本正經胡說八道 |
一、研究背景:深度研究智能體的理想與現實
任務定義
深度研究智能體(Deep Research Agents, DRAs)旨在自動化生成分析師級別的研究報告,通過迭代式的信息檢索和綜合分析來完成復雜的研究任務。這類系統需要具備網絡規模的信息搜索、數據檢索和內容合成能力,能夠產出傳統上需要數小時人工勞動才能完成的綜合性報告。
研究動機
盡管深度研究智能體在學術研究、商業情報和知識管理等領域展現出巨大應用潛力,但它們在實際報告生成任務中仍然表現不佳。主要問題包括:
- 現有基準測試的局限性:大多數基準測試都是針對問答(QA)任務設計的,無法充分捕捉實際深度研究場景中對報告質量、準確性、深度和邏輯連貫性的嚴格要求
- 任務復雜度不足:許多開放式基準的任務來自大語言模型驅動的采樣或合成,導致與人類實際需求存在偏差,復雜度不夠
- 評估指標主觀性強:由于研究報告的動態特性,現有基準采用基于作者經驗或領域知識的主觀評估指標,不同基準使用不同的度量標準,缺乏統一標準
核心貢獻
為解決這些問題,OPPO AI智能體團隊提出了兩大創新工具:
- FINDER(Fine-grained DEepResearch bench):一個細粒度基準測試,包含100個專家精心策劃的研究任務和419個結構化檢查清單項,標準化了報告結構、分析深度和事實依據
- DEFT(Deep rEsearch Failure Taxonomy):首個針對深度研究智能體的失敗分類法,包含14種細粒度失敗模式,涵蓋推理、檢索和生成三個核心維度
圖片
如圖1所示,FINDER通過明確的指導實現了更結構化和可復現的評估。
二、相關工作:從封閉式問答到開放式報告生成
封閉式評估的局限
早期深度研究智能體的工作主要采用面向通用人工智能(AGI)的數據集作為評估基準,最具代表性的包括GAIA和HLE。隨著領域發展,研究者提出了各種專門化基準測試。
然而,這些數據集雖然具有挑戰性,但都屬于封閉式評估,具有標準答案。它們忽視了報告生成的評估,與深度研究的實際需求不匹配。
開放式基準的探索
相比之下,開放式基準將深度研究視為沒有唯一解決方案的任務:
- DeepResearch Bench:包含100個博士級問題,涵蓋22個領域,引入了RACE(報告質量)和FACT(檢索有效性)評估框架
- Mind2Web 2:包含130個時變的日常任務,提出"智能體即裁判"框架
- DeepResearchGym:提供沙盒環境和可復現的搜索API
- DeepScholar-Bench:通過內容覆蓋度、引用準確性和組織質量自動評估研究綜合能力
- DRBench:聚焦企業場景,評估長篇分析報告
現有問題
盡管這些基準取得了進展,但由于研究報告的動態特性,它們都采用主觀評估指標,缺乏統一標準,這限制了生成報告的實用性。
三、核心方法:FINDER基準與DEFT分類法
3.1 FINDER:細粒度深度研究基準
FINDER基于DeepResearch Bench進行改進,主要包含兩個關鍵創新:
(1)提示詞精煉(Prompt Refinement)
為解決原始DeepResearch Bench中查詢過于簡短的問題,團隊邀請七位領域專家擴展查詢內容,明確規定了:
- 報告長度
- 學科范圍
- 呈現格式
- 其他具體要求
如圖A.1所示,精煉后的查詢更長,意味著更高的任務規范性和研究復雜度。
圖片
(2)檢查清單構建(Checklist Construction)
專家為每個查詢創建3-5個檢查清單項,這些清單有兩個目的:
- 組織和構建查詢中的現有信息
- 補充未明確提及但與查詢相關的內容要求和約束
團隊使用Gemini 2.5 Flash對初始檢查清單進行迭代優化,消除語義不完整、表達模糊或與報告無關的項目。
最終結果:為100個查詢生成了419個檢查清單項,每個查詢包含3-5個清單。
3.2 DEFT:失敗分類法的系統構建
DEFT是首個專門針對深度研究智能體的失敗分類法,采用人類-AI協作框架,基于扎根理論(Grounded Theory)方法論構建。
構建流程三階段
階段一:開放式編碼(Open Coding)
- 概念類別生成:選擇5個不同模型家族的大語言模型(Claude Opus 4.1、Gemini 2.5 Pro、Grok 4、DeepSeek-V3.1、Qwen3-Max-Preview)作為編碼器
- 動態編碼本:維護一個動態更新的概念清單 ,其中 表示概念名稱, 表示其簡要描述
- 概念優化:使用Seed1.5-Embedding識別余弦相似度 ≥ 0.6 的概念對并進行合并,最終產生51個概念
階段二:主軸編碼(Axial Coding)
- 基于編碼者間信度(ICR)評估進行三輪編碼
- 采用Krippendorff's Alpha系數衡量編碼一致性:
其中 表示觀察到的不一致性, 表示預期的隨機不一致性
- 邀請三位領域專家獨立標注樣本,每輪標注后進行約5小時的討論以解決分歧
- 最終確定14個主軸類別
階段三:選擇性編碼(Selective Coding)
綜合前兩個階段的概念和類別,建立三個核心類別:
- 推理(Reasoning)
- 檢索(Retrieval)
- 生成(Generation)
這三個核心類別在功能上形成完整閉環,在時間上交織遞進,共同支撐對智能體失敗機制的系統理解。
正向分類法指標
為建立統一的、面向成功的評估框架,團隊引入正向性能指標,將錯誤計數轉換為有界、可解釋的分數:
其中:
- 表示類別中觀察到的錯誤數量
- 表示數據集總大小
- 當時,模型獲得最大分數
- 隨著錯誤增加, 單調遞減趨近于0
圖片
四、實驗效果:揭示深度研究智能體的真實能力
4.1 評估對象
團隊評估了三類代表性系統:
- 專有API:Gemini-2.5-Pro Deep Research、O3 Deep Research、O4-Mini Deep Research、Perplexity Deep Research
- 開源模型:MiroThinker、WebThinker、AFM
- 智能體框架:OWL、OpenManus、MiroFlow(英文和中文版本)
4.2 FINDER性能分析
圖片
RACE和FACT框架表現
RACE框架(報告質量評估):
- Gemini 2.5 Pro Deep Research 表現最佳,總分50.95
- Kimi K2(48.28)和O3 Deep Research(46.25)緊隨其后
- 開源模型和智能體框架中,WebThinker和MiroFlow在指令遵循方面表現突出
FACT框架(檢索有效性評估):
- O3 Deep Research 表現卓越,事實精確度65.98,引用可靠性76.58
- Gemini 2.5 Pro Deep Research是有力的競爭者
- 其他模型得分較低,可能源于升級后的提示詞要求更密集的推理和更嚴格的引用驗證
正向分類法指標洞察
- Gemini 在推理、檢索和生成三個維度上都取得了持續高分,顯示出良好的任務理解和綜合協調能力
- Kimi K2和O4-Mini 展現出卓越的推理能力(超過Gemini)和強大的檢索性能,但在生成階段急劇下降
- MiroFlow 等開放框架顯示出中等穩定性,但同樣在最終生成階段面臨瓶頸
關鍵發現:優秀系統在理解、證據收集和綜合之間保持平衡,而非過度優化單一階段。
檢查清單準確性
- MiroFlow-English 得分最高(72.19%)
- Tongyi-DeepResearch(67.54%)、Kimi K2(66.59%)和Gemini 2.5 Pro(63.01%)形成競爭性集群
- 這表明系統化的推理規范(無論通過框架設計還是內在模型能力)決定了研究可靠性
4.3 DRB vs FINDER對比
圖片
RACE框架:FINDER下的總分與DRB基本一致,因為兩者共享相同的基于參考的評估流程
FACT模塊:顯示出更明顯的差異
- 大多數系統在引用準確性(C.Acc.)和有效性(E.Cit.)上都有所下降
- 這反映了FINDER修訂后的提示詞設計增加了難度,施加了更嚴格的事實性和引用驗證要求
結論:FINDER對推理透明度和來源可靠性實施了更強的約束,暴露了在DRB原始配置下不太明顯的模型弱點。
4.4 DEFT失敗分類法深度分析
圖片
一級和二級類別結構
一級類別(核心) | 二級類別(主軸) | 占比 |
推理(Reasoning) | 1-1-FUR 需求理解失敗 | 10.6% |
1-2-LAD 分析深度不足 | 11.1% | |
1-3-LAS 分析范圍受限 | 0.9% | |
1-4-RPS 規劃策略僵化 | 5.6% | |
檢索(Retrieval) | 2-1-IIA 外部信息獲取不足 | 16.3% |
2-2-IHD 信息處理缺陷 | 2.3% | |
2-3-IIF 信息整合失敗 | 2.9% | |
2-4-IRM 信息表示不一致 | 2.9% | |
2-5-VMF 驗證機制失敗 | 8.7% | |
生成(Generation) | 3-1-RCP 冗余內容堆砌 | 2.5% |
3-2-SOD 結構組織失調 | 2.3% | |
3-3-CSD 內容規范偏離 | 10.7% | |
3-4-DAR 分析嚴謹性不足 | 4.3% | |
3-5-SCF 策略性內容捏造 | 19.0% |
三大核心洞察
洞察1:推理韌性而非推理強度是關鍵
推理類別的失敗比例相對較低(28.14%),表明大多數DRAs能夠繼承底層大模型在語義理解和基本推理方面的優勢。但是:
- 1-4-RPS(規劃策略僵化) 表明智能體在動態任務調度和自適應推理方面仍有局限
- 線性執行邏輯往往無法有效響應任務演化或中間反饋
團隊提出推理韌性(Reasoning Resilience)概念:
- 推理韌性:智能體在動態任務環境中維持和調整推理狀態的能力
- 推理強度:理想條件下的分析或推理能力上限
深度研究任務常伴隨反饋、演化和噪聲。只有具備推理韌性的系統才能持續檢測偏差、重新校準推理路徑、調整策略,從而在深度、廣度、準確性和一致性之間取得平衡。
洞察2:檢索不是簡單的請求-接收,而是閉環流程
圖片
檢索類別的失敗(33.10%)沿著任務工作流展現出階段特定的相關性:
- 初始階段:2-1-IIA(信息獲取不足)占16.3%,反映智能體無法有效啟動或執行信息搜索
- 中間階段:2-2-IHD、2-3-IIF、2-4-IRM發生在初步檢索成功后,對應信息利用、整合和表示的失敗
- 終端階段:2-5-VMF(驗證機制失敗)占8.7%,智能體在遇到關鍵或沖突信息時未能進行交叉檢查
解決方案:增強智能體的連貫知識管理能力
- 初始檢索階段:建立明確的決策框架(何時檢索、檢索什么、如何使用)
- 中間階段:實施顯式機制監控信息狀態并動態調整檢索策略
- 最終階段:激活強制驗證機制對關鍵事實進行交叉檢查
洞察3:加強生成過程的約束和驗證至關重要
生成類別展現出最高的失敗比例(38.76%),特別是:
- 3-5-SCF(策略性內容捏造)占19.0%,智能體傾向于生成看似專業但實際上缺乏事實支持的術語、方法或引用,以營造學術嚴謹的假象
- 3-1-RCP(冗余內容堆砌)與3-5-SCF在結果上相似,都導致輸出冗長、結構松散、缺乏實質性見解
建議:預約束和后驗證應擴展到生成維度,包括文本組織、語言結構和格式標準。
4.5 DEFT有效性驗證
(1)編碼者間信度(ICR)評估
圖片
團隊計算了人類標注與Gemini 2.5-Flash評估之間的Krippendorff's alpha系數:
- OpenManus平均系數:0.8203
- WebThinker平均系數:0.8526
- 檢查清單準確性系數:0.8025-0.8708
結果表明DEFT框架和檢查清單評估具有強穩定性和客觀可復現性。
(2)失敗分布平衡
三個主要維度的失敗頻率分布相對平衡:
- 推理:28.14%
- 檢索:33.10%
- 生成:38.76%
這種平衡表明分類法涵蓋了DRA報告生成中的多樣化挑戰,避免了過度集中于單一失敗類型。
圖片
(3)結構化失敗模式分析
圖片
相關性分析確認了三個連貫的失敗集群:
- 流程完整性集群:需求誤解(1.1 FUR)導致不相關或不完整的報告(3.3 CSD)
- 內容整合集群:來源整合失敗(2.4 IIF)導致結構混亂(3.2 SOD)和高度冗余(3.1 RCP)
- 證據嚴謹性集群:檢索不佳(2.1 IIA)導致"自信捏造"(3.5 SCF)
這些系統性失敗路徑證實DEFT捕捉到了重要的真實世界機制。
五、論文總結
本文介紹了FINDER和DEFT,作為首個在任務和過程層面統一評估和診斷深度研究智能體的框架。通過整合419項基于檢查清單的評估和14類失敗分類法,研究揭示了當前智能體的核心問題不在于理解指令,而在于證據信息檢索、綜合和推理韌性。
實驗表明,即使是表現最佳的系統也經常捏造缺乏支持的內容,并且未能保持方法論的嚴謹性。 FINDER和DEFT為社區提供了可操作的工具,推動深度研究系統從簡單的答案準確性邁向可靠、透明和可驗證的方向。這項工作為理解和改進深度研究智能體提供了重要的診斷框架,標志著該領域向實用化邁出的關鍵一步。























