真實聯網搜索Agent，7B媲美滿血R1，華為盤古DeepDiver給出開域信息獲取新解法

2025-06-06 09:07:00

華為諾亞方舟實驗室研究團隊提出了 Pangu DeepDiver 模型，通過 Search Intensity Scaling 實現了 LLM 搜索引擎自主交互的全新范式，使得 Pangu 7B 模型在開域信息獲取能力上可以接近百倍參數的 DeepSeek-R1，并優于 DeepResearcher、R1-Searcher 等業界同期工作！

大型語言模型 (LLM) 的發展日新月異，但實時「內化」與時俱進的知識仍然是一項挑戰。如何讓模型在面對復雜的知識密集型問題時，能夠自主決策獲取外部知識的策略？

論文鏈接：https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf

arxiv 鏈接：https://arxiv.org/abs/2505.24332

該項研究的主要發現如下：（1）對于復雜信息獲取任務，端到端 Agentic RL 訓練相比直接蒸餾老師軌跡能更好地實現 Search Intensity Scaling，從而帶來平均 10 PCT 效果提升；（2）基于真實互聯網搜索 API 和數據集進行訓練，相比基于 Wikipedia，能夠學到更多有效推理模式；（3）基于 Search Intensity Scaling，DeepDiver 的檢索和推理能力可以從客觀題泛化至主觀生成任務。

下文將詳細解讀 DeepDiver 的創新之處，包括其數據構建方法，Agentic RL 訓練過程，以及 Search Intensity Scaling 如何帶來顯著性能提升。

為什么要提出 DeepDiver?

當前 RAG 技術主要分為兩大流派：

Prompt-based 方法：如 FLARE [1]、Search-o1 [2] 等，通過復雜 prompt 流程指導模型，優勢在于即插即用，但缺乏靈活性和智能性。
SFT-based 方法：如 Self-RAG [3]、AutoRAG [4] 等，通過構建人工合成數據教會模型拆解問題、生成檢索詞，但行為方式、獲取信息的策略完全取決于 SFT 數據分布，泛化能力有限。

隨著 DeepSeek-R1 [5] 和 OpenAI-o1 的崛起，基于強化學習的 RAG 方法逐漸受到關注。然而，ReSearch [6]、Search-r1 [7] 等工作主要基于 Wikipedia 語料構建，存在兩大問題：

LLM 預訓練已內化大量 Wiki 知識，使得模型不需真正檢索就能回答問題
Wiki 環境過于「干凈」，缺乏真實互聯網的噪聲和信息沖突，這使得目前主流的基于 wiki 環境的 LLM 會主動地學習如何收集關鍵信息，但如何解決沖突，如何在真實互聯網環境中去噪，驗證信息真實度，以及如何反思和糾正內容等高階能力則會被忽略。

這些受限的訓練語料和環境，阻礙了 LLM 學習動態地決定何時何地進行搜索，以及如何根據需求調整搜索深度和頻率。研究團隊將這種缺失的能力定義為 Search Intensity Scaling (SIS) —— 一種在充滿模糊、信息沖突的高噪音環境下，LLM 為了突破困境而涌現出的信息檢索能力，通過 SIS，模型會根據問題難易程度動態的調整搜索頻率和深度，而不是妥協于驗證不足的答案上。為此，研究團隊認為只有在真實互聯網環境下，用真實互聯網數據進行探索式訓練，才能使模型涌現真正的高階信息檢索和推理能力。

圖 1：四種關鍵信息搜索行為示意圖：

(a) 收集關鍵信息，(b) 解決沖突，(c) 驗證與去噪，(d) 反思與糾正

WebPuzzle

真實互聯網環境下的高質量數據集

為了讓模型能夠使用真實的互聯網數據進行訓練，本文提出了 WebPuzzle。

來看幾個 WebPuzzle 中的問題示例：

他是一名 NBA 狀元秀球員，他曾效力于 76 人、掘金、活塞等隊，他入選了最佳新秀一陣，然而他沒拿到過總冠軍，他有超過 170 + 次數的兩雙數據，他是誰？
-- 答案： Joe Smith （艾佛森并不滿足兩雙數據的描述）

她憑借多個經典古裝角色深入人心，她曾經簽約了海外的唱片公司推出過多語種音樂專輯，她主演的某部古裝劇更因播放量創紀錄被國家館藏機構收錄，更令她憑此劇斬獲某電視節最高獎項，她是誰？
-- 答案：劉亦菲

2020 年 10 月至 2024 年 4 月期間，華為公司與孝感市政府進行了幾次合作洽談？每次洽談的主要領導是誰？
-- 答案：2 次洽談，第一次是 2020 年時任市委書記、市長吳海濤與湖北公司總經理孟少云。第二次是 2024 年市委副書記、市長吳慶華與華為技術有限公司高級副總裁楊瑞凱。

嘗試用搜索引擎解答這個問題，會發現需要多輪搜索和推理才能得出正確答案。

數據收集與處理

WebPuzzle 主要從兩個數據源采集：

Wiki 猜謎類數據：研究團隊收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 語料，在語料中選取特定實體作為謎底，然后羅列出與該實體有關的特性作為謎面，再將其中部分特性隱藏化、模糊化（如示例中的「超過 170 + 次數」，「簽約了海外的唱片公司」分別代表「172 次兩雙數據」，「簽約了日本的唱片公司」），增加解題難度。
真實用戶問題：基于現網真實用戶問題及其搜索返回結果，構建多篇網頁交叉驗證的問題。

圖 2：WebPuzzle 數據構建流程，包括候選生成和難度標注兩個主要階段

測試集經過了人工標注后，最終版 WebPuzzle 包含 24k 訓練樣本和 275 條高質量評測樣本，涵蓋不同難度等級的跨頁問答和猜謎題目。

DeepDiver 訓練流程

迭代檢索與強化學習在真實互聯網環境下的結合

DeepDiver 基于迭代式 RAG 框架構建，該框架要求模型在收到用戶請求后，自行在多個輪次交替式的推理和搜索，具體來說，在每個輪次中:

1. 推理 (Reasoning)：針對歷史輪次進行反思、推理、總結

2. 決策：根據推理的內容，決策當前輪次是搜索 (Search) 或回答 (Answer)

整體訓練流程分為兩個主要階段：

冷啟動階段 (Cold-start SFT)

通過蒸餾 teacher 模型的回復，使模型掌握基本的解題套路。使用 5.2k 高質量數據對模型進行初步訓練，包括：

2k WebPuzzle 數據
2.2k 通用推理數據 (數學、邏輯推理等)
1k 真實用戶問題與搜索結果拼接數據

強化學習階段 (Reinforcement Learning)

在冷啟動模型的基礎上，使用 GRPO 算法讓模型自主探索，對高質量探索路徑給予獎勵。這一過程完全由 outcomereward 信號引導，沒有 distillation 或 SFT 范式的 step-wise 數據干預。

圖 3：DeepDiver 訓練流程概覽，包括 rollout 生成和 GRPO 模型更新

Reward 機制設計

DeepDiver 采用了兩種互補的獎勵函數設計：

1. 寬松獎勵 (訓練初期)：使用 0-10 分評分標準，模型輸出滿足部分條件 (得分≥6) 即可獲得獎勵，穩定訓練初期。

2. 嚴格獎勵 (訓練后期)：模型回答需通過三輪嚴格評估，每輪由三個不同 LLM grader 校驗，只有至少 2 輪校驗通過的情況下才會給予獎勵。實驗展示出嚴格獎勵在訓練后期有助于突破訓練瓶頸。

針對搜索引擎使用，研究團隊設計了額外獎勵機制：當一組 rollouts 中所有不使用搜索的嘗試都失敗，而如果有使用搜索的嘗試成功時，給予這些 rollout 額外獎勵，糾正模型過度依賴內部知識的傾向。

實驗結果

7B DeepDiver 媲美 671B DeepSeek-R1

主要評測結果

研究團隊在 WebPuzzle 及多個基準上進行了評測，包括 C-simpleQA [8]、FRAMES-zh [9] 和 Bamboogle-zh [10]，結果令人振奮：

表 1：各模型在不同數據集上的表現對比，括號中的數字表示搜索輪次

三大關鍵發現：

1. DeepDiver 大幅優于蒸餾模型：在 WebPuzzle 上，DeepDiver-Pangu-7B 達 38.1%，遠遠超過了蒸餾版本的模型，提升明顯；使用了同樣訓練方法的 DeepDiver-Qwen2.5-7B 準確率達 37.6%，比 R1 蒸餾版提升近 8 個百分點；這說明了基于真實互聯網的強化學習環境和訓練語料能夠大幅提升模型的信息索取能力。

2. Search Intensity Scaling 帶來性能飛躍：DeepDiver 展現出明顯的 Search Intensity Scaling Up 的趨勢，DeepDiver 為了彌補自己內部知識的不足，使用的平均搜索輪次會顯著高于 baseline，直接推動準確率提升。

3. 優異的跨任務泛化能力：雖然模型主要在 WebPuzzle 上訓練，但在其他數據集上同樣表現卓越，驗證了整個 DeepDiver 框架和 SIS 帶來的強大的泛化能力。

圖 4：訓練階段搜索輪次與獎勵值的相關性，搜索強度增加伴隨訓練獎勵上升

深入分析

Search Intensity Scaling 的魅力

排除知識記憶因素的公平對比

在主試驗中，研究團隊發現 DeepDiver 在非 WebPuzzle 的榜單上盡管提升明顯，但是仍然落后于 DeepSeek R1， QwQ 等模型。該團隊提出一個問題，DeepDiver 落后于這些模型到底是因為 Information Seeking 的能力不如這些 Baseline，還是因為這些 Baseline 的參數量較大，預訓練階段已經內化了這些榜單的知識源？

為驗證 DeepDiver 在信息檢索方面的真實能力，他們設計了「公平對比」實驗：排除模型僅靠內部知識就能回答的問題，只比較需要外部檢索的問題上的表現。

圖 5：排除內部知識可解問題后的評估結果對比

結果表明，在難以通過內部知識解決的問題上，DeepDiver 超越或匹敵所有基線模型，甚至包括 DeepSeek-R1。這證實了 DeepDiver 在 WebPuzzle 完整數據集上未能全面超越 671B 基線模型的主要原因，是參數規模而非檢索能力限制。而對于檢索能力本身而言，DeepDiver 則表現出了非常強大的能力，能夠讓 7B 模型與超大規模 LLM 性能相當。

與基于 Wiki 環境和語料的訓練方法的同期工作的對比

為了與同期工作進行對比，盡管 DeepDiver 完全使用中文訓練，研究團隊仍在英文基準測試中借助英文搜索引擎進行了評估，并與同期工作進行比較，如下表所示，其中 R1-Searcher 是基于 Wiki 環境和語料訓練，DeepResearcher 是基于 Wiki 語料和真實搜索環境訓練：

表 2：英文評估數據集上使用英文搜索引擎環境的對比結果

結果顯示，基于真實互聯網語料和環境訓練的 DeepDiver，盡管沒有在訓練中接觸英文訓練語料和搜索環境，DeepDiver 憑借 SIS 在絕大多數任務上仍超越了基于 Wiki 訓練的基線模型，凸顯了 SIS 的強大性能和解決難題時的適應能力。

搜索強度與問題難度的關系

DeepDiver 展現出卓越的搜索強度自適應能力，隨著問題難度增加，模型會增加搜索輪次：

表 3：WebPuzzle 不同子集的性能表現

特別是與 DeepSeek-R1 相比，DeepDiver 在超難子集上取得顯著領先：平均 2.6 輪搜索帶來 3.7 個百分點的優勢，而 DeepSeek-R1 僅使用 1.59 輪搜索就妥協于一個不那么令人滿意的結果。

兩階段獎勵函數設計的關鍵作用

在訓練過程中，研究團隊發現后期性能常陷入瓶頸。通過對比不同獎勵函數的效果，他們得出重要結論：

圖 6：不同獎勵函數的訓練效果，寬松獎勵穩定初期訓練，嚴格獎勵突破后期瓶頸

寬松獎勵有助于穩定強化學習初期階段，而嚴格獎勵則能在后期突破性能瓶頸。切換到嚴格獎勵后，WebPuzzle 上的得分提高了近 9 個百分點（從 29.1% 升至 37.6%）。

開放式長文問答任務的驚人泛化

DeepDiver 僅在 WebPuzzle 封閉式問題上訓練，但能夠出色泛化到開放式問答任務：

表 4：ProxyQA 數據集上的表現對比

在長文生成評測基準 ProxyQA 上，DeepDiver 得分達 32.72%，比 R1 蒸餾模型高出 9.47 個百分點，同時生成更長、更全面的回答，展現出卓越的知識密集型長文生成能力。在沒有 cherry picking 的情況也能一眼看出 DeepDiver 和蒸餾模型生成結果的區別。

Information-Seeking 各類行為分析和統計

研究團隊詳細統計了不同模型在各類數據集上的信息搜索行為：

表 5：多個模型在 WebPuzzle 和基于 wiki 數據集上的行為統計

結果表明，WebPuzzle 比現有 Wiki 數據集更具挑戰性，需要更復雜的信息搜索行為。而 DeepDiver 模型相比其他基線模型表現出更多樣化和復雜的信息搜索行為，展示了在真實網絡環境中訓練的優勢。

未來展望與局限性

盡管 DeepDiver 獲得了正向的實驗結果，但研究團隊仍然認識到以下幾點局限和未來研究方向：

1.WebPuzzle 的持續演化：隨著 LLM 預訓練的不斷擴展，如何持續構建有效的 benchmark 來適配與時俱進的 LLM，是一項長期挑戰。

2. 開放式任務的 RL 框架優化：為開放式問題設計更有效的 RL 框架，解決長文生成等任務的獎勵設計難題。

3. 冷啟動 SFT 與 RL 的動態銜接：探索自適應流程，讓 LLM 按需動態地從 SFT 切換到 RL，提升訓練效率。

4. 工具生態的擴展：除搜索引擎外，擴充瀏覽器引擎、Python 解釋器、本地知識庫等工具，進一步增強信息獲取能力。

5. 模型規模和序列長度的擴展：基于昇騰平臺，在更大模型規模上進行驗證，推動產品應用和落地部署。

6. SIS 影響機制的系統性分析：探究基座模型能力、訓練數據構成、算法設計等多種關鍵因素對實現 SIS 效果的影響規律，深入分析和進行消融實驗。

總結

DeepDiver 系統地探討了 LLM 在真實互聯網環境下解決知識密集型問題的能力。通過強化學習與真實互聯網搜索引擎的結合，該研究實現了 Search Intensity Scaling，使模型能根據任務難度自適應調整搜索強度。在 WebPuzzle 和多項基準測試中，7B 規模的 DeepDiver 展現出與 671B DeepSeek-R1 相當的表現，驗證了該方法的有效性。Agentic RL 訓練技術在 Agent 發展中逐步顯現出重要價值，本工作提供了搜索引擎環境下的具體參考。

責任編輯：張燕妮來源：機器之心

模型 LLM AI

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看