国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

真實聯網搜索Agent,7B媲美滿血R1,華為盤古DeepDiver給出開域信息獲取新解法

人工智能 新聞
華為諾亞方舟實驗室研究團隊提出了 Pangu DeepDiver 模型,通過 Search Intensity Scaling 實現了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在開域信息獲取能力上可以接近百倍參數的 DeepSeek-R1,并優于 DeepResearcher、R1-Searcher 等業界同期工作!

大型語言模型 (LLM) 的發展日新月異,但實時「內化」與時俱進的知識仍然是一項挑戰。如何讓模型在面對復雜的知識密集型問題時,能夠自主決策獲取外部知識的策略?

華為諾亞方舟實驗室研究團隊提出了 Pangu DeepDiver 模型,通過 Search Intensity Scaling 實現了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在開域信息獲取能力上可以接近百倍參數的 DeepSeek-R1,并優于 DeepResearcher、R1-Searcher 等業界同期工作!

圖片

論文鏈接 :https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf

arxiv 鏈接:https://arxiv.org/abs/2505.24332

該項研究的主要發現如下:(1)對于復雜信息獲取任務,端到端 Agentic RL 訓練相比直接蒸餾老師軌跡能更好地實現 Search Intensity Scaling,從而帶來平均 10 PCT 效果提升;(2)基于真實互聯網搜索 API 和數據集進行訓練,相比基于 Wikipedia,能夠學到更多有效推理模式;(3)基于 Search Intensity Scaling,DeepDiver 的檢索和推理能力可以從客觀題泛化至主觀生成任務。

下文將詳細解讀 DeepDiver 的創新之處,包括其數據構建方法,Agentic RL 訓練過程,以及 Search Intensity Scaling 如何帶來顯著性能提升。

為什么要提出 DeepDiver?

當前 RAG 技術主要分為兩大流派:

  • Prompt-based 方法:如 FLARE [1]、Search-o1 [2] 等,通過復雜 prompt 流程指導模型,優勢在于即插即用,但缺乏靈活性和智能性。
  • SFT-based 方法:如 Self-RAG [3]、AutoRAG [4] 等,通過構建人工合成數據教會模型拆解問題、生成檢索詞,但行為方式、獲取信息的策略完全取決于 SFT 數據分布,泛化能力有限。

隨著 DeepSeek-R1 [5] 和 OpenAI-o1 的崛起,基于強化學習的 RAG 方法逐漸受到關注。然而,ReSearch [6]、Search-r1 [7] 等工作主要基于 Wikipedia 語料構建,存在兩大問題:

  • LLM 預訓練已內化大量 Wiki 知識,使得模型不需真正檢索就能回答問題
  • Wiki 環境過于「干凈」,缺乏真實互聯網的噪聲和信息沖突,這使得目前主流的基于 wiki 環境的 LLM 會主動地學習如何收集關鍵信息,但如何解決沖突,如何在真實互聯網環境中去噪,驗證信息真實度,以及如何反思和糾正內容等高階能力則會被忽略。

這些受限的訓練語料和環境,阻礙了 LLM 學習動態地決定何時何地進行搜索,以及如何根據需求調整搜索深度和頻率。研究團隊將這種缺失的能力定義為 Search Intensity Scaling (SIS) —— 一種在充滿模糊、信息沖突的高噪音環境下,LLM 為了突破困境而涌現出的信息檢索能力,通過 SIS,模型會根據問題難易程度動態的調整搜索頻率和深度,而不是妥協于驗證不足的答案上。為此,研究團隊認為只有在真實互聯網環境下,用真實互聯網數據進行探索式訓練,才能使模型涌現真正的高階信息檢索和推理能力。

圖片

圖 1:四種關鍵信息搜索行為示意圖:

(a) 收集關鍵信息,(b) 解決沖突,(c) 驗證與去噪,(d) 反思與糾正

WebPuzzle

真實互聯網環境下的高質量數據集

為了讓模型能夠使用真實的互聯網數據進行訓練,本文提出了 WebPuzzle。

來看幾個 WebPuzzle 中的問題示例:

他是一名 NBA 狀元秀球員,他曾效力于 76 人、掘金、活塞等隊,他入選了最佳新秀一陣,然而他沒拿到過總冠軍,他有超過 170 + 次數的兩雙數據,他是誰? 

-- 答案: Joe Smith (艾佛森并不滿足兩雙數據的描述)

她憑借多個經典古裝角色深入人心,她曾經簽約了海外的唱片公司推出過多語種音樂專輯,她主演的某部古裝劇更因播放量創紀錄被國家館藏機構收錄,更令她憑此劇斬獲某電視節最高獎項,她是誰?

-- 答案:劉亦菲

2020 年 10 月至 2024 年 4 月期間,華為公司與孝感市政府進行了幾次合作洽談?每次洽談的主要領導是誰? 

-- 答案:2 次洽談,第一次是 2020 年時任市委書記、市長吳海濤與湖北公司總經理孟少云。第二次是 2024 年市委副書記、市長吳慶華與華為技術有限公司高級副總裁楊瑞凱。

嘗試用搜索引擎解答這個問題,會發現需要多輪搜索和推理才能得出正確答案。

數據收集與處理

WebPuzzle 主要從兩個數據源采集:

  • Wiki 猜謎類數據:研究團隊收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 語料,在語料中選取特定實體作為謎底,然后羅列出與該實體有關的特性作為謎面,再將其中部分特性隱藏化、模糊化(如示例中的「超過 170 + 次數」,「簽約了海外的唱片公司」分別代表「172 次兩雙數據」,「簽約了日本的唱片公司」),增加解題難度。
  • 真實用戶問題:基于現網真實用戶問題及其搜索返回結果,構建多篇網頁交叉驗證的問題。

圖片

圖 2:WebPuzzle 數據構建流程,包括候選生成和難度標注兩個主要階段

測試集經過了人工標注后,最終版 WebPuzzle 包含 24k 訓練樣本和 275 條高質量評測樣本,涵蓋不同難度等級的跨頁問答和猜謎題目。

DeepDiver 訓練流程

迭代檢索與強化學習在真實互聯網環境下的結合

DeepDiver 基于迭代式 RAG 框架構建,該框架要求模型在收到用戶請求后,自行在多個輪次交替式的推理和搜索,具體來說,在每個輪次中:

1. 推理 (Reasoning):針對歷史輪次進行反思、推理、總結

2. 決策:根據推理的內容,決策當前輪次是搜索 (Search) 或回答 (Answer)

整體訓練流程分為兩個主要階段:

冷啟動階段 (Cold-start SFT)

通過蒸餾 teacher 模型的回復,使模型掌握基本的解題套路。使用 5.2k 高質量數據對模型進行初步訓練,包括:

  • 2k WebPuzzle 數據
  • 2.2k 通用推理數據 (數學、邏輯推理等)
  • 1k 真實用戶問題與搜索結果拼接數據

強化學習階段 (Reinforcement Learning)

在冷啟動模型的基礎上,使用 GRPO 算法讓模型自主探索,對高質量探索路徑給予獎勵。這一過程完全由 outcomereward 信號引導,沒有 distillation 或 SFT 范式的 step-wise 數據干預。

圖片

圖 3:DeepDiver 訓練流程概覽,包括 rollout 生成和 GRPO 模型更新

Reward 機制設計

DeepDiver 采用了兩種互補的獎勵函數設計:

1. 寬松獎勵 (訓練初期):使用 0-10 分評分標準,模型輸出滿足部分條件 (得分≥6) 即可獲得獎勵,穩定訓練初期。

2. 嚴格獎勵 (訓練后期):模型回答需通過三輪嚴格評估,每輪由三個不同 LLM grader 校驗,只有至少 2 輪校驗通過的情況下才會給予獎勵。實驗展示出嚴格獎勵在訓練后期有助于突破訓練瓶頸。

針對搜索引擎使用,研究團隊設計了額外獎勵機制:當一組 rollouts 中所有不使用搜索的嘗試都失敗,而如果有使用搜索的嘗試成功時,給予這些 rollout 額外獎勵,糾正模型過度依賴內部知識的傾向。

實驗結果

7B DeepDiver 媲美 671B DeepSeek-R1

主要評測結果

研究團隊在 WebPuzzle 及多個基準上進行了評測,包括 C-simpleQA [8]、FRAMES-zh [9] 和 Bamboogle-zh [10],結果令人振奮:

圖片

表 1:各模型在不同數據集上的表現對比,括號中的數字表示搜索輪次

三大關鍵發現:

1. DeepDiver 大幅優于蒸餾模型:在 WebPuzzle 上,DeepDiver-Pangu-7B 達 38.1%,遠遠超過了蒸餾版本的模型,提升明顯;使用了同樣訓練方法的 DeepDiver-Qwen2.5-7B 準確率達 37.6%,比 R1 蒸餾版提升近 8 個百分點;這說明了基于真實互聯網的強化學習環境和訓練語料能夠大幅提升模型的信息索取能力。

2. Search Intensity Scaling 帶來性能飛躍:DeepDiver 展現出明顯的 Search Intensity Scaling Up 的趨勢,DeepDiver 為了彌補自己內部知識的不足,使用的平均搜索輪次會顯著高于 baseline,直接推動準確率提升。

3. 優異的跨任務泛化能力:雖然模型主要在 WebPuzzle 上訓練,但在其他數據集上同樣表現卓越,驗證了整個 DeepDiver 框架和 SIS 帶來的強大的泛化能力。

圖片

圖 4:訓練階段搜索輪次與獎勵值的相關性,搜索強度增加伴隨訓練獎勵上升

深入分析

Search Intensity Scaling 的魅力

排除知識記憶因素的公平對比

在主試驗中,研究團隊發現 DeepDiver 在非 WebPuzzle 的榜單上盡管提升明顯,但是仍然落后于 DeepSeek R1, QwQ 等模型。該團隊提出一個問題,DeepDiver 落后于這些模型到底是因為 Information Seeking 的能力不如這些 Baseline,還是因為這些 Baseline 的參數量較大,預訓練階段已經內化了這些榜單的知識源?

為驗證 DeepDiver 在信息檢索方面的真實能力,他們設計了「公平對比」實驗:排除模型僅靠內部知識就能回答的問題,只比較需要外部檢索的問題上的表現。

圖片

圖 5:排除內部知識可解問題后的評估結果對比

結果表明,在難以通過內部知識解決的問題上,DeepDiver 超越或匹敵所有基線模型,甚至包括 DeepSeek-R1。這證實了 DeepDiver 在 WebPuzzle 完整數據集上未能全面超越 671B 基線模型的主要原因,是參數規模而非檢索能力限制。而對于檢索能力本身而言,DeepDiver 則表現出了非常強大的能力,能夠讓 7B 模型與超大規模 LLM 性能相當。

與基于 Wiki 環境和語料的訓練方法的同期工作的對比

為了與同期工作進行對比,盡管 DeepDiver 完全使用中文訓練,研究團隊仍在英文基準測試中借助英文搜索引擎進行了評估,并與同期工作進行比較,如下表所示,其中 R1-Searcher 是基于 Wiki 環境和語料訓練,DeepResearcher 是基于 Wiki 語料和真實搜索環境訓練:

圖片

表 2:英文評估數據集上使用英文搜索引擎環境的對比結果

結果顯示,基于真實互聯網語料和環境訓練的 DeepDiver,盡管沒有在訓練中接觸英文訓練語料和搜索環境,DeepDiver 憑借 SIS 在絕大多數任務上仍超越了基于 Wiki 訓練的基線模型,凸顯了 SIS 的強大性能和解決難題時的適應能力。

搜索強度與問題難度的關系

DeepDiver 展現出卓越的搜索強度自適應能力,隨著問題難度增加,模型會增加搜索輪次:

圖片

表 3:WebPuzzle 不同子集的性能表現

特別是與 DeepSeek-R1 相比,DeepDiver 在超難子集上取得顯著領先:平均 2.6 輪搜索帶來 3.7 個百分點的優勢,而 DeepSeek-R1 僅使用 1.59 輪搜索就妥協于一個不那么令人滿意的結果。

兩階段獎勵函數設計的關鍵作用

在訓練過程中,研究團隊發現后期性能常陷入瓶頸。通過對比不同獎勵函數的效果,他們得出重要結論:

圖片

圖 6:不同獎勵函數的訓練效果,寬松獎勵穩定初期訓練,嚴格獎勵突破后期瓶頸

寬松獎勵有助于穩定強化學習初期階段,而嚴格獎勵則能在后期突破性能瓶頸。切換到嚴格獎勵后,WebPuzzle 上的得分提高了近 9 個百分點(從 29.1% 升至 37.6%)。

開放式長文問答任務的驚人泛化

DeepDiver 僅在 WebPuzzle 封閉式問題上訓練,但能夠出色泛化到開放式問答任務:

圖片

表 4:ProxyQA 數據集上的表現對比

在長文生成評測基準 ProxyQA 上,DeepDiver 得分達 32.72%,比 R1 蒸餾模型高出 9.47 個百分點,同時生成更長、更全面的回答,展現出卓越的知識密集型長文生成能力。在沒有 cherry picking 的情況也能一眼看出 DeepDiver 和蒸餾模型生成結果的區別。

Information-Seeking 各類行為分析和統計

研究團隊詳細統計了不同模型在各類數據集上的信息搜索行為:

圖片

表 5:多個模型在 WebPuzzle 和基于 wiki 數據集上的行為統計

結果表明,WebPuzzle 比現有 Wiki 數據集更具挑戰性,需要更復雜的信息搜索行為。而 DeepDiver 模型相比其他基線模型表現出更多樣化和復雜的信息搜索行為,展示了在真實網絡環境中訓練的優勢。

未來展望與局限性

盡管 DeepDiver 獲得了正向的實驗結果,但研究團隊仍然認識到以下幾點局限和未來研究方向:

1.WebPuzzle 的持續演化:隨著 LLM 預訓練的不斷擴展,如何持續構建有效的 benchmark 來適配與時俱進的 LLM,是一項長期挑戰。

2. 開放式任務的 RL 框架優化:為開放式問題設計更有效的 RL 框架,解決長文生成等任務的獎勵設計難題。

3. 冷啟動 SFT 與 RL 的動態銜接:探索自適應流程,讓 LLM 按需動態地從 SFT 切換到 RL,提升訓練效率。

4. 工具生態的擴展:除搜索引擎外,擴充瀏覽器引擎、Python 解釋器、本地知識庫等工具,進一步增強信息獲取能力。

5. 模型規模和序列長度的擴展:基于昇騰平臺,在更大模型規模上進行驗證,推動產品應用和落地部署。

6. SIS 影響機制的系統性分析:探究基座模型能力、訓練數據構成、算法設計等多種關鍵因素對實現 SIS 效果的影響規律,深入分析和進行消融實驗。

總結

DeepDiver 系統地探討了 LLM 在真實互聯網環境下解決知識密集型問題的能力。通過強化學習與真實互聯網搜索引擎的結合,該研究實現了 Search Intensity Scaling,使模型能根據任務難度自適應調整搜索強度。在 WebPuzzle 和多項基準測試中,7B 規模的 DeepDiver 展現出與 671B DeepSeek-R1 相當的表現,驗證了該方法的有效性。Agentic RL 訓練技術在 Agent 發展中逐步顯現出重要價值,本工作提供了搜索引擎環境下的具體參考。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-10 08:30:00

AI模型訓練

2025-03-27 10:28:32

2025-02-25 08:20:50

AI程序員DeepSeek

2025-03-07 08:50:03

2025-02-12 11:53:18

2025-03-11 02:00:00

AI工具Token-AI

2025-04-16 15:28:31

模型AI數據

2024-04-03 12:32:00

數據訓練

2025-02-05 23:21:32

2025-06-23 08:56:00

2025-02-27 00:00:05

2025-03-06 10:14:39

2025-03-06 09:55:49

2025-01-27 12:30:07

2025-08-01 14:32:35

AI模型訓練

2025-02-20 15:32:28

2025-02-17 09:20:00

AI微信模型

2025-02-17 00:00:05

IDEADeepSeek

2024-03-18 07:01:42

點贊
收藏

51CTO技術棧公眾號

国产色视频在线播放| 亚洲一区二区三区无吗| 日韩视频 中文字幕| 色偷偷av一区二区三区| 91麻豆精品国产综合久久久久久| 国产精品白丝在线| 亚洲美女区一区| 国产精品99久久久久久似苏梦涵| 欧美一区 二区| 8888四色奇米在线观看| 男女av免费观看| 熟妇人妻va精品中文字幕| 亚洲欧美国产精品桃花| 欧美激情欧美激情| 国产亚洲制服色| 综合日韩av| 色呦呦一区二区三区| 午夜伊人狠狠久久| 欧美12一14sex性hd| 91久久偷偷做嫩草影院| 亚洲午夜精品久久久久久久久久久久| 国产精品1024| 免费在线播放电影| 都市激情国产精品| 日本天堂免费a| 欧美日韩综合久久| caoporen国产精品| 热99精品里视频精品| 欧美精品xxx| 97激碰免费视频| 4444欧美成人kkkk| 国产精品啪视频| 成人午夜高潮视频| 国产视色精品亚洲一区二区| 91超碰rencao97精品| 91精品国产91久久久久青草| 国产精品成人观看视频免费| 久久er99热精品一区二区三区| 欧美精品二区三区四区免费看视频| 欧美日韩综合另类| 久久精品国产精品亚洲精品色| 国产mv免费观看入口亚洲| 欧美日本一区二区视频在线观看| 麻豆极品一区二区三区| 国内外成人免费激情在线视频| 欧美激情亚洲自拍| 亚洲精品suv精品一区二区| 精品区一区二区| 亚洲欧洲免费视频| 欧美激情a∨在线视频播放| 亚洲图片欧美午夜| 欧美一级高清片| 欧美成人免费网| 国产一区视频在线| 欧美综合激情| 五月天电影免费在线观看一区| 在线免费观看h| 欧美free嫩15| 亚洲高清资源| 日韩主播视频在线| 一区二区三区精品视频| 尤物精品国产第一福利三区 | 久久综合久久久久88| 欧美日韩久久一区二区| 欧美亚洲动漫精品| 91精品国产综合久久小美女| 中文字幕亚洲无线码a| 成人有码在线视频| 日韩精品视频一区二区在线观看| 日韩欧美亚洲系列| 亚洲不卡系列| 好吊妞国产欧美日韩免费观看网站| 国产后进白嫩翘臀在线观看视频 | 国产乱色国产精品免费视频| 在线亚洲一区观看| 蜜桃视频在线观看www社区| 久久精品视频在线看| 成人免费高清视频| 欧美一区二区视频网站| 国产精品久久久久久久久久久新郎| 精品国内自产拍在线观看| 欧美日韩大陆一区二区| 欧美巨大另类极品videosbest| 精品国一区二区三区| 国产网站欧美日韩免费精品在线观看 | 久久精品视频免费播放| 黄色一级片在线看| 成人在线免费公开观看视频| 欧美成人一二区| 麻豆精品一区二区三区| 欧美一区二区三区免费大片| 国产一区二区三区四区五区在线| 四虎精品成人影院观看地址| 国产精品主播| 中文字幕不卡三区| 亚洲激情图片qvod| 欧美亚洲视频在线观看| 手机视频在线观看| 国产一二三视频| 久久97精品久久久久久久不卡| 国产一区二区久久| 久草视频在线播放| 手机看片福利在线观看| 欧美日韩有码| 91久久国产最好的精华液| 久久九九视频| www.成人爱| 国产精品视频观看| 91精品久久久久久久久中文字幕 | 成人3d动漫网站| 欧美日一区二区| 欧美色精品天天在线观看视频| 欧美日韩在线高清| 户外露出一区二区三区| 国产日本亚洲高清| 147欧美人体大胆444| av成人在线观看| 久久精品午夜| 亚洲欧美一区二区三区国产精品| 亚洲成色777777在线观看影院| 久久久久成人精品| 国产精选一区二区| 成人在线电影网| 国产精品久久久久久久久久齐齐| 伊人久久大香线| 色综合中文字幕| 国产伦精品一区| av7777777| 少妇高潮一区二区三区99| 影院欧美亚洲| 国产精品福利一区二区三区| 日韩三级成人av网| 国产91一区二区三区| 五月激情在线| av免费在线一区| 成年人国产精品| 色综合久久久888| 丁香六月激情网| 欧美成年网站| 亚洲精品91美女久久久久久久| 给我免费播放片在线观看| 91综合久久爱com| 亚洲女同ⅹxx女同tv| 99精彩视频在线观看免费| 亚洲日本视频在线| 欧美日韩国产123区| 国产盗摄视频在线观看| 99香蕉久久| 亚洲成年人在线| 国产成人97精品免费看片| 欧洲一级在线观看| 91久久精品国产91久久| 97在线视频免费观看| 在线免费视频a| 欧美视频亚洲视频| 亚洲精品一区二区三区不| 日本一二区视频| 国产精品萝li| 成人午夜激情网| 麻豆网站在线免费观看| 青青草国产精品亚洲专区无| 欧美成人免费视频| www黄色av| 欧美一区综合| 日韩电影中文字幕在线| www.久久艹| 黄色成人在线观看网站| 亚洲欧洲性图库| 国产精品亚洲片夜色在线| 国产在线999| 亚洲一区在线观看免费观看电影高清| 天堂精品视频| 蜜臀久久久久久久| 日韩欧美三级一区二区| 欧美日韩专区| 欧美大陆一区二区| 久久久久国产精品一区二区| av动漫免费观看| 日韩丝袜情趣美女图片| 一区二区三区区四区播放视频在线观看 | 一区二区三区四区蜜桃| 国产一级粉嫩xxxx| 亚洲欧美日韩在线| 天堂在线第六区| 精品视频在线看| 全部a∨一极品视觉盛宴| 亚洲欧洲日本在线| 中文字幕在线免费专区| 久久久久国产精品免费免费搜索| 五月婷婷一区| 国产99久久精品| 成年人免费网站| 岛国精品视频在线播放| 日本中文字幕在线2020| 日韩电影中文字幕一区| 最新国产精品精品视频| 成人久久18免费网站图片| 免费成人小视频| 午夜视频你懂的| 国产欧美久久久精品影院|