首個(gè)開源多模態(tài)Deep Research智能體，超越多個(gè)閉源方案

2025-08-18 08:30:00

WebWatcher不僅在單一任務(wù)維度實(shí)現(xiàn)領(lǐng)先，更在復(fù)合型任務(wù)、跨模態(tài)復(fù)雜推理及真實(shí)信息檢索等方面，奠定了新一代開源多模態(tài)Agent的領(lǐng)先地位。

首個(gè)開源多模態(tài)Deep Research Agent來了。

整合了網(wǎng)頁瀏覽、圖像搜索、代碼解釋器、內(nèi)部 OCR 等多種工具，通過全自動(dòng)流程生成高質(zhì)量推理軌跡，并用冷啟動(dòng)微調(diào)和強(qiáng)化學(xué)習(xí)優(yōu)化決策，使模型在任務(wù)中能自主選擇合適的工具組合和推理路徑。

假設(shè)你讓一個(gè) AI 回答這樣一個(gè)問題：

“在這張圖所示動(dòng)物的 Wikipedia 頁面上，2020 年之前帶有 ‘visual edit’ 標(biāo)簽的修訂次數(shù)是多少？”

聽起來不復(fù)雜，但要得到正確答案，需要經(jīng)過多個(gè)環(huán)節(jié)：

1 從圖像中識(shí)別出動(dòng)物（它是一只海鸚Atlantic puffin，而不是外形相似的鵜鶘、企鵝或海鷗）。2 找到對(duì)應(yīng)的 Wikipedia 頁面并進(jìn)入歷史版本記錄。3 篩選出 2020 年之前帶有 “visual edit” 標(biāo)簽的版本，并進(jìn)行精確計(jì)數(shù)。

從上面案例可以看出，要解決這類問題，光有感知和理解還不夠，Agent還需要能夠制定計(jì)劃、靈活調(diào)用不同工具、在推理過程中不斷驗(yàn)證和修正方向。

這類跨模態(tài)、跨工具、多步驟的任務(wù)，需要具備深度研究（Deep Research）能力的Agent才能有效應(yīng)對(duì)。

WebWatcher 的核心方法

WebWatcher 的技術(shù)方案覆蓋了從數(shù)據(jù)構(gòu)建到訓(xùn)練優(yōu)化的完整鏈路，核心目標(biāo)是讓多模態(tài)Agent在高難度多模態(tài)深度研究任務(wù)中具備靈活推理和多工具協(xié)作能力。整個(gè)方法包含三大環(huán)節(jié)：

1 多模態(tài)高難度數(shù)據(jù)生成：構(gòu)建具備復(fù)雜推理鏈和信息模糊化的訓(xùn)練數(shù)據(jù)；

2 高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練：生成貼近真實(shí)多工具交互的推理軌跡，并通過監(jiān)督微調(diào)（SFT）完成初步能力對(duì)齊。然后利用 GRPO 在復(fù)雜任務(wù)環(huán)境中進(jìn)一步提升模型的決策能力與泛化性；

3 高難度基準(zhǔn)評(píng)測：構(gòu)建并使用 BrowseComp-VL 對(duì)模型的多模態(tài)深度推理能力進(jìn)行驗(yàn)證。

1. 多模態(tài)高難度數(shù)據(jù)生成

現(xiàn)有大多數(shù) VQA 數(shù)據(jù)集集中于單步感知任務(wù)，缺乏規(guī)劃性與深度推理需求，難以支撐多模態(tài)深度研究代理的訓(xùn)練。為此，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全自動(dòng)多模態(tài)數(shù)據(jù)生成流程，目標(biāo)是在真實(shí)互聯(lián)網(wǎng)知識(shí)分布下生成復(fù)雜、跨模態(tài)、鏈路不確定的任務(wù)樣本。

隨機(jī)游走收集跨模態(tài)知識(shí)鏈研究團(tuán)隊(duì)在多源網(wǎng)頁（文本、圖片、混合頁面）中進(jìn)行隨機(jī)游走采樣，構(gòu)建多領(lǐng)域?qū)嶓w圖譜。不同于傳統(tǒng)的線性多跳問答鏈，這種圖譜連接稠密、路徑不固定，問題的解決路線難以預(yù)設(shè)，逼迫模型探索性地組合視覺信息。

信息模糊化提升不確定性在生成問題時(shí)，研究團(tuán)隊(duì)刻意隱藏關(guān)鍵信息（如將“2019 年”替換為“21 世紀(jì)初”、將實(shí)體名改為描述性短語），并在視覺部分引入模糊指代詞描述，使得模型無法依賴簡單模式匹配，必須進(jìn)行跨模態(tài)推理。

文本-視覺聯(lián)合轉(zhuǎn)換所有復(fù)雜問題（QA）樣本通過 QA-to-VQA 轉(zhuǎn)換模塊擴(kuò)展為多模態(tài)版本，將圖譜中的部分實(shí)體或關(guān)系替換為圖片、圖表或網(wǎng)頁截圖，使問題天然依賴跨模態(tài)理解能力。經(jīng)過多階段過濾，包括語義合理性檢查、視覺相關(guān)性驗(yàn)證、推理鏈長度控制，研究團(tuán)隊(duì)得到了一個(gè)大規(guī)模、高質(zhì)量的多模態(tài)推理數(shù)據(jù)集，能夠覆蓋多種復(fù)雜推理模式。

2. 高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練

在高難度訓(xùn)練數(shù)據(jù)的基礎(chǔ)上，模型還需要學(xué)習(xí)如何調(diào)用工具和如何在推理中動(dòng)態(tài)切換策略。然而，現(xiàn)有推理模型在長鏈多工具任務(wù)中存在兩個(gè)問題：

1 思維鏈條冗長、模板化，缺乏跨任務(wù)的適應(yīng)性；2 工具調(diào)用格式和角色差異大，直接采集到的軌跡難以直接用于訓(xùn)練。

為此，研究團(tuán)隊(duì)提出了Action-Observation 驅(qū)動(dòng)的軌跡生成方法：

收集真實(shí)的多工具交互軌跡；
保留其 Action-Observation 結(jié)構(gòu)，但控制 Thought 部分，確保每一步推理都簡潔、行動(dòng)導(dǎo)向，而非冗長的模板化解釋；
使用規(guī)則過濾與 LLM 輔助審查，剔除低質(zhì)量軌跡。

隨后，研究團(tuán)隊(duì)基于這些高質(zhì)量軌跡進(jìn)行監(jiān)督微調(diào)（SFT），讓 WebWatcher 在訓(xùn)練初期快速掌握多模態(tài) ReAct 式推理和工具調(diào)用的基本模式，為后續(xù)的強(qiáng)化學(xué)習(xí)階段打下基礎(chǔ)。

在完成冷啟動(dòng)后，WebWatcher進(jìn)入強(qiáng)化學(xué)習(xí)階段，用GRPO進(jìn)一步提升多模態(tài)Agent在復(fù)雜環(huán)境下的決策能力。模型嚴(yán)格結(jié)合格式正確性與答案準(zhǔn)確性雙重標(biāo)準(zhǔn)設(shè)計(jì)獎(jiǎng)勵(lì)，對(duì)多步工具調(diào)用的連貫性和最終答案的準(zhǔn)確性均予以關(guān)注，從而提升多模態(tài)決策鏈的可靠性。

3. BrowseComp-VL：多模態(tài)深度研究基準(zhǔn)

為了全面驗(yàn)證 WebWatcher 的能力，研究團(tuán)隊(duì)提出了BrowseComp-VL，它是 BrowseComp 在視覺-語言任務(wù)上的擴(kuò)展版本，設(shè)計(jì)目標(biāo)是逼近人類專家的跨模態(tài)研究任務(wù)難度。該基準(zhǔn)具有以下特點(diǎn)：

- 任務(wù)長且信息模糊化：問題往往包含多個(gè)模糊實(shí)體描述，需要跨網(wǎng)頁、跨模態(tài)搜索與整合；- 多工具協(xié)作必要性：任務(wù)無法僅靠感知或文本檢索完成，必須結(jié)合網(wǎng)頁瀏覽、圖像檢索、OCR、代碼執(zhí)行等多種工具；- 真實(shí)網(wǎng)絡(luò)環(huán)境：測試樣本來自真實(shí)網(wǎng)頁與圖像資源，保持復(fù)雜性與不可預(yù)測性。

實(shí)驗(yàn)結(jié)果：刷新多模態(tài)推理與信息檢索新紀(jì)錄

在多輪嚴(yán)格評(píng)測中，WebWatcher 在四大核心領(lǐng)域全面領(lǐng)先于當(dāng)前主流的開源與閉源多模態(tài)大模型，顯示出其在復(fù)雜推理、信息檢索、知識(shí)整合以及聚合類信息尋優(yōu)等任務(wù)上的強(qiáng)勁實(shí)力。

復(fù)雜推理（HLE-VL）在人類終極考試（Humanity’s Last Exam，HLE-VL）這一多步復(fù)雜推理基準(zhǔn)上，WebWatcher以13.6%的Pass@1分?jǐn)?shù)一舉奪魁，大幅領(lǐng)先于GPT-4o（9.8%）、Gemini2.5-flash（9.2%）、Qwen2.5-VL-72B（8.6%）等代表性模型。充分證明了其在高難度知識(shí)融合與鏈?zhǔn)經(jīng)Q策中的推理能力。

信息檢索能力（MMSearch）在更貼近真實(shí)多模態(tài)搜索的MMSearch評(píng)測中，WebWatcher 同樣表現(xiàn)卓越，Pass@1得分高達(dá)55.3%，相比Gemini2.5-flash（43.9%）和GPT-4o（24.1%）等大幅領(lǐng)先，展現(xiàn)了極高的檢索精準(zhǔn)性和復(fù)雜場景下的信息聚合能力。

知識(shí)+檢索整合（LiveVQA）LiveVQA是知識(shí)推理與外部信息獲取深度協(xié)同的典型場景。WebWatcher的Pass@1成績達(dá)到58.7%，領(lǐng)先Gemini2.5-flash（41.3%）、Qwen2.5-VL-72B（35.7%）和GPT-4o（34.0%），充分體現(xiàn)了其在知識(shí)調(diào)用、事實(shí)核查與實(shí)時(shí)信息融合等多維技能上的系統(tǒng)性優(yōu)勢(shì)。

信息尋優(yōu)與聚合（BrowseComp-VL）在最具綜合挑戰(zhàn)的BrowseComp-VL基準(zhǔn)（信息聚合型任務(wù)）上，WebWatcher 以27.0%的平均得分（Pass@1）遙遙領(lǐng)先，于GPT-4o（13.4%）、Gemini2.5-flash（13.0%）、Qwen2.5-VL-72B（11.5%）、Claude-3.7（11.2%）等國內(nèi)外主流旗艦?zāi)Ｐ停煽兲嵘^一倍。該基準(zhǔn)涵蓋了跨網(wǎng)頁、多實(shí)體、模糊表達(dá)等嚴(yán)苛考驗(yàn)，彰顯了WebWatcher 在復(fù)雜信息尋優(yōu)與聚合領(lǐng)域的絕對(duì)能力優(yōu)勢(shì)。

綜合來看，WebWatcher不僅在單一任務(wù)維度實(shí)現(xiàn)領(lǐng)先，更在復(fù)合型任務(wù)、跨模態(tài)復(fù)雜推理及真實(shí)信息檢索等方面，奠定了新一代開源多模態(tài)Agent的領(lǐng)先地位。

arxiv：https://arxiv.org/abs/2508.05748
github倉庫：https://github.com/Alibaba-NLP/WebAgent

責(zé)任編輯：張燕妮來源：量子位