首個(gè)開源多模態(tài)Deep Research智能體,超越多個(gè)閉源方案
首個(gè)開源多模態(tài)Deep Research Agent來了。
整合了網(wǎng)頁瀏覽、圖像搜索、代碼解釋器、內(nèi)部 OCR 等多種工具,通過全自動(dòng)流程生成高質(zhì)量推理軌跡,并用冷啟動(dòng)微調(diào)和強(qiáng)化學(xué)習(xí)優(yōu)化決策,使模型在任務(wù)中能自主選擇合適的工具組合和推理路徑。
假設(shè)你讓一個(gè) AI 回答這樣一個(gè)問題:
“在這張圖所示動(dòng)物的 Wikipedia 頁面上,2020 年之前帶有 ‘visual edit’ 標(biāo)簽的修訂次數(shù)是多少?”

聽起來不復(fù)雜,但要得到正確答案,需要經(jīng)過多個(gè)環(huán)節(jié):
1 從圖像中識(shí)別出動(dòng)物(它是一只海鸚Atlantic puffin,而不是外形相似的鵜鶘、企鵝或海鷗)。2 找到對(duì)應(yīng)的 Wikipedia 頁面并進(jìn)入歷史版本記錄。3 篩選出 2020 年之前帶有 “visual edit” 標(biāo)簽的版本,并進(jìn)行精確計(jì)數(shù)。
從上面案例可以看出,要解決這類問題,光有感知和理解還不夠,Agent還需要能夠制定計(jì)劃、靈活調(diào)用不同工具、在推理過程中不斷驗(yàn)證和修正方向。
這類跨模態(tài)、跨工具、多步驟的任務(wù),需要具備深度研究(Deep Research)能力的Agent才能有效應(yīng)對(duì)。
WebWatcher 的核心方法
WebWatcher 的技術(shù)方案覆蓋了從數(shù)據(jù)構(gòu)建到訓(xùn)練優(yōu)化的完整鏈路,核心目標(biāo)是讓多模態(tài)Agent在高難度多模態(tài)深度研究任務(wù)中具備靈活推理和多工具協(xié)作能力。整個(gè)方法包含三大環(huán)節(jié):
1 多模態(tài)高難度數(shù)據(jù)生成:構(gòu)建具備復(fù)雜推理鏈和信息模糊化的訓(xùn)練數(shù)據(jù);
2 高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練:生成貼近真實(shí)多工具交互的推理軌跡,并通過監(jiān)督微調(diào)(SFT)完成初步能力對(duì)齊。然后利用 GRPO 在復(fù)雜任務(wù)環(huán)境中進(jìn)一步提升模型的決策能力與泛化性;
3 高難度基準(zhǔn)評(píng)測:構(gòu)建并使用 BrowseComp-VL 對(duì)模型的多模態(tài)深度推理能力進(jìn)行驗(yàn)證。
1. 多模態(tài)高難度數(shù)據(jù)生成
現(xiàn)有大多數(shù) VQA 數(shù)據(jù)集集中于單步感知任務(wù),缺乏規(guī)劃性與深度推理需求,難以支撐多模態(tài)深度研究代理的訓(xùn)練。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全自動(dòng)多模態(tài)數(shù)據(jù)生成流程,目標(biāo)是在真實(shí)互聯(lián)網(wǎng)知識(shí)分布下生成復(fù)雜、跨模態(tài)、鏈路不確定的任務(wù)樣本。

隨機(jī)游走收集跨模態(tài)知識(shí)鏈研究團(tuán)隊(duì)在多源網(wǎng)頁(文本、圖片、混合頁面)中進(jìn)行隨機(jī)游走采樣,構(gòu)建多領(lǐng)域?qū)嶓w圖譜。不同于傳統(tǒng)的線性多跳問答鏈,這種圖譜連接稠密、路徑不固定,問題的解決路線難以預(yù)設(shè),逼迫模型探索性地組合視覺信息。
信息模糊化提升不確定性在生成問題時(shí),研究團(tuán)隊(duì)刻意隱藏關(guān)鍵信息(如將“2019 年”替換為“21 世紀(jì)初”、將實(shí)體名改為描述性短語),并在視覺部分引入模糊指代詞描述,使得模型無法依賴簡單模式匹配,必須進(jìn)行跨模態(tài)推理。
文本-視覺聯(lián)合轉(zhuǎn)換所有復(fù)雜問題(QA) 樣本通過 QA-to-VQA 轉(zhuǎn)換模塊擴(kuò)展為多模態(tài)版本,將圖譜中的部分實(shí)體或關(guān)系替換為圖片、圖表或網(wǎng)頁截圖,使問題天然依賴跨模態(tài)理解能力。經(jīng)過多階段過濾,包括語義合理性檢查、視覺相關(guān)性驗(yàn)證、推理鏈長度控制,研究團(tuán)隊(duì)得到了一個(gè)大規(guī)模、高質(zhì)量的多模態(tài)推理數(shù)據(jù)集,能夠覆蓋多種復(fù)雜推理模式。
2. 高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練
在高難度訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,模型還需要學(xué)習(xí)如何調(diào)用工具和如何在推理中動(dòng)態(tài)切換策略。然而,現(xiàn)有推理模型在長鏈多工具任務(wù)中存在兩個(gè)問題:
1 思維鏈條冗長、模板化,缺乏跨任務(wù)的適應(yīng)性;2 工具調(diào)用格式和角色差異大,直接采集到的軌跡難以直接用于訓(xùn)練。
為此,研究團(tuán)隊(duì)提出了Action-Observation 驅(qū)動(dòng)的軌跡生成方法:
- 收集真實(shí)的多工具交互軌跡;
- 保留其 Action-Observation 結(jié)構(gòu),但控制 Thought 部分,確保每一步推理都簡潔、行動(dòng)導(dǎo)向,而非冗長的模板化解釋;
- 使用規(guī)則過濾與 LLM 輔助審查,剔除低質(zhì)量軌跡。
隨后,研究團(tuán)隊(duì)基于這些高質(zhì)量軌跡進(jìn)行監(jiān)督微調(diào)(SFT),讓 WebWatcher 在訓(xùn)練初期快速掌握多模態(tài) ReAct 式推理和工具調(diào)用的基本模式,為后續(xù)的強(qiáng)化學(xué)習(xí)階段打下基礎(chǔ)。
在完成冷啟動(dòng)后,WebWatcher進(jìn)入強(qiáng)化學(xué)習(xí)階段,用GRPO進(jìn)一步提升多模態(tài)Agent在復(fù)雜環(huán)境下的決策能力。模型嚴(yán)格結(jié)合格式正確性與答案準(zhǔn)確性雙重標(biāo)準(zhǔn)設(shè)計(jì)獎(jiǎng)勵(lì),對(duì)多步工具調(diào)用的連貫性和最終答案的準(zhǔn)確性均予以關(guān)注,從而提升多模態(tài)決策鏈的可靠性。
3. BrowseComp-VL:多模態(tài)深度研究基準(zhǔn)
為了全面驗(yàn)證 WebWatcher 的能力,研究團(tuán)隊(duì)提出了BrowseComp-VL,它是 BrowseComp 在視覺-語言任務(wù)上的擴(kuò)展版本,設(shè)計(jì)目標(biāo)是逼近人類專家的跨模態(tài)研究任務(wù)難度。該基準(zhǔn)具有以下特點(diǎn):
- 任務(wù)長且信息模糊化:問題往往包含多個(gè)模糊實(shí)體描述,需要跨網(wǎng)頁、跨模態(tài)搜索與整合;- 多工具協(xié)作必要性:任務(wù)無法僅靠感知或文本檢索完成,必須結(jié)合網(wǎng)頁瀏覽、圖像檢索、OCR、代碼執(zhí)行等多種工具;- 真實(shí)網(wǎng)絡(luò)環(huán)境:測試樣本來自真實(shí)網(wǎng)頁與圖像資源,保持復(fù)雜性與不可預(yù)測性。

實(shí)驗(yàn)結(jié)果:刷新多模態(tài)推理與信息檢索新紀(jì)錄
在多輪嚴(yán)格評(píng)測中,WebWatcher 在四大核心領(lǐng)域全面領(lǐng)先于當(dāng)前主流的開源與閉源多模態(tài)大模型,顯示出其在復(fù)雜推理、信息檢索、知識(shí)整合以及聚合類信息尋優(yōu)等任務(wù)上的強(qiáng)勁實(shí)力。

復(fù)雜推理(HLE-VL)在人類終極考試(Humanity’s Last Exam,HLE-VL)這一多步復(fù)雜推理基準(zhǔn)上,WebWatcher以13.6%的Pass@1分?jǐn)?shù)一舉奪魁,大幅領(lǐng)先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)、Qwen2.5-VL-72B(8.6%)等代表性模型。充分證明了其在高難度知識(shí)融合與鏈?zhǔn)經(jīng)Q策中的推理能力。
信息檢索能力(MMSearch)在更貼近真實(shí)多模態(tài)搜索的MMSearch評(píng)測中,WebWatcher 同樣表現(xiàn)卓越,Pass@1得分高達(dá)55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)等大幅領(lǐng)先,展現(xiàn)了極高的檢索精準(zhǔn)性和復(fù)雜場景下的信息聚合能力。
知識(shí)+檢索整合(LiveVQA)LiveVQA是知識(shí)推理與外部信息獲取深度協(xié)同的典型場景。WebWatcher的Pass@1成績達(dá)到58.7%,領(lǐng)先Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%),充分體現(xiàn)了其在知識(shí)調(diào)用、事實(shí)核查與實(shí)時(shí)信息融合等多維技能上的系統(tǒng)性優(yōu)勢(shì)。
信息尋優(yōu)與聚合(BrowseComp-VL)在最具綜合挑戰(zhàn)的BrowseComp-VL基準(zhǔn)(信息聚合型任務(wù))上,WebWatcher 以27.0%的平均得分(Pass@1)遙遙領(lǐng)先,于GPT-4o(13.4%)、Gemini2.5-flash(13.0%)、Qwen2.5-VL-72B(11.5%)、Claude-3.7(11.2%)等國內(nèi)外主流旗艦?zāi)P停煽兲嵘^一倍。該基準(zhǔn)涵蓋了跨網(wǎng)頁、多實(shí)體、模糊表達(dá)等嚴(yán)苛考驗(yàn),彰顯了WebWatcher 在復(fù)雜信息尋優(yōu)與聚合領(lǐng)域的絕對(duì)能力優(yōu)勢(shì)。
綜合來看,WebWatcher不僅在單一任務(wù)維度實(shí)現(xiàn)領(lǐng)先,更在復(fù)合型任務(wù)、跨模態(tài)復(fù)雜推理及真實(shí)信息檢索等方面,奠定了新一代開源多模態(tài)Agent的領(lǐng)先地位。
arxiv:https://arxiv.org/abs/2508.05748
github倉庫:https://github.com/Alibaba-NLP/WebAgent




































