国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

首個(gè)開源多模態(tài)Deep Research智能體,超越多個(gè)閉源方案

人工智能 新聞
WebWatcher不僅在單一任務(wù)維度實(shí)現(xiàn)領(lǐng)先,更在復(fù)合型任務(wù)、跨模態(tài)復(fù)雜推理及真實(shí)信息檢索等方面,奠定了新一代開源多模態(tài)Agent的領(lǐng)先地位。

首個(gè)開源多模態(tài)Deep Research Agent來了。

整合了網(wǎng)頁瀏覽、圖像搜索、代碼解釋器、內(nèi)部 OCR 等多種工具,通過全自動(dòng)流程生成高質(zhì)量推理軌跡,并用冷啟動(dòng)微調(diào)和強(qiáng)化學(xué)習(xí)優(yōu)化決策,使模型在任務(wù)中能自主選擇合適的工具組合和推理路徑。

假設(shè)你讓一個(gè) AI 回答這樣一個(gè)問題:

“在這張圖所示動(dòng)物的 Wikipedia 頁面上,2020 年之前帶有 ‘visual edit’ 標(biāo)簽的修訂次數(shù)是多少?”

聽起來不復(fù)雜,但要得到正確答案,需要經(jīng)過多個(gè)環(huán)節(jié):

1 從圖像中識(shí)別出動(dòng)物(它是一只海鸚Atlantic puffin,而不是外形相似的鵜鶘、企鵝或海鷗)。2 找到對(duì)應(yīng)的 Wikipedia 頁面并進(jìn)入歷史版本記錄。3 篩選出 2020 年之前帶有 “visual edit” 標(biāo)簽的版本,并進(jìn)行精確計(jì)數(shù)。

從上面案例可以看出,要解決這類問題,光有感知和理解還不夠,Agent還需要能夠制定計(jì)劃、靈活調(diào)用不同工具、在推理過程中不斷驗(yàn)證和修正方向。

這類跨模態(tài)、跨工具、多步驟的任務(wù),需要具備深度研究(Deep Research)能力的Agent才能有效應(yīng)對(duì)。

WebWatcher 的核心方法

WebWatcher 的技術(shù)方案覆蓋了從數(shù)據(jù)構(gòu)建到訓(xùn)練優(yōu)化的完整鏈路,核心目標(biāo)是讓多模態(tài)Agent在高難度多模態(tài)深度研究任務(wù)中具備靈活推理和多工具協(xié)作能力。整個(gè)方法包含三大環(huán)節(jié):

1 多模態(tài)高難度數(shù)據(jù)生成:構(gòu)建具備復(fù)雜推理鏈和信息模糊化的訓(xùn)練數(shù)據(jù);

2 高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練:生成貼近真實(shí)多工具交互的推理軌跡,并通過監(jiān)督微調(diào)(SFT)完成初步能力對(duì)齊。然后利用 GRPO 在復(fù)雜任務(wù)環(huán)境中進(jìn)一步提升模型的決策能力與泛化性;

3 高難度基準(zhǔn)評(píng)測:構(gòu)建并使用 BrowseComp-VL 對(duì)模型的多模態(tài)深度推理能力進(jìn)行驗(yàn)證。

1. 多模態(tài)高難度數(shù)據(jù)生成

現(xiàn)有大多數(shù) VQA 數(shù)據(jù)集集中于單步感知任務(wù),缺乏規(guī)劃性與深度推理需求,難以支撐多模態(tài)深度研究代理的訓(xùn)練。為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全自動(dòng)多模態(tài)數(shù)據(jù)生成流程,目標(biāo)是在真實(shí)互聯(lián)網(wǎng)知識(shí)分布下生成復(fù)雜、跨模態(tài)、鏈路不確定的任務(wù)樣本。

隨機(jī)游走收集跨模態(tài)知識(shí)鏈研究團(tuán)隊(duì)在多源網(wǎng)頁(文本、圖片、混合頁面)中進(jìn)行隨機(jī)游走采樣,構(gòu)建多領(lǐng)域?qū)嶓w圖譜。不同于傳統(tǒng)的線性多跳問答鏈,這種圖譜連接稠密、路徑不固定,問題的解決路線難以預(yù)設(shè),逼迫模型探索性地組合視覺信息。

信息模糊化提升不確定性在生成問題時(shí),研究團(tuán)隊(duì)刻意隱藏關(guān)鍵信息(如將“2019 年”替換為“21 世紀(jì)初”、將實(shí)體名改為描述性短語),并在視覺部分引入模糊指代詞描述,使得模型無法依賴簡單模式匹配,必須進(jìn)行跨模態(tài)推理。

文本-視覺聯(lián)合轉(zhuǎn)換所有復(fù)雜問題(QA) 樣本通過 QA-to-VQA 轉(zhuǎn)換模塊擴(kuò)展為多模態(tài)版本,將圖譜中的部分實(shí)體或關(guān)系替換為圖片、圖表或網(wǎng)頁截圖,使問題天然依賴跨模態(tài)理解能力。經(jīng)過多階段過濾,包括語義合理性檢查、視覺相關(guān)性驗(yàn)證、推理鏈長度控制,研究團(tuán)隊(duì)得到了一個(gè)大規(guī)模、高質(zhì)量的多模態(tài)推理數(shù)據(jù)集,能夠覆蓋多種復(fù)雜推理模式。

2. 高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練

在高難度訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,模型還需要學(xué)習(xí)如何調(diào)用工具和如何在推理中動(dòng)態(tài)切換策略。然而,現(xiàn)有推理模型在長鏈多工具任務(wù)中存在兩個(gè)問題:

1 思維鏈條冗長、模板化,缺乏跨任務(wù)的適應(yīng)性;2 工具調(diào)用格式和角色差異大,直接采集到的軌跡難以直接用于訓(xùn)練。

為此,研究團(tuán)隊(duì)提出了Action-Observation 驅(qū)動(dòng)的軌跡生成方法

  • 收集真實(shí)的多工具交互軌跡;
  • 保留其 Action-Observation 結(jié)構(gòu),但控制 Thought 部分,確保每一步推理都簡潔、行動(dòng)導(dǎo)向,而非冗長的模板化解釋;
  • 使用規(guī)則過濾與 LLM 輔助審查,剔除低質(zhì)量軌跡。

隨后,研究團(tuán)隊(duì)基于這些高質(zhì)量軌跡進(jìn)行監(jiān)督微調(diào)(SFT),讓 WebWatcher 在訓(xùn)練初期快速掌握多模態(tài) ReAct 式推理和工具調(diào)用的基本模式,為后續(xù)的強(qiáng)化學(xué)習(xí)階段打下基礎(chǔ)。

在完成冷啟動(dòng)后,WebWatcher進(jìn)入強(qiáng)化學(xué)習(xí)階段,用GRPO進(jìn)一步提升多模態(tài)Agent在復(fù)雜環(huán)境下的決策能力。模型嚴(yán)格結(jié)合格式正確性與答案準(zhǔn)確性雙重標(biāo)準(zhǔn)設(shè)計(jì)獎(jiǎng)勵(lì),對(duì)多步工具調(diào)用的連貫性和最終答案的準(zhǔn)確性均予以關(guān)注,從而提升多模態(tài)決策鏈的可靠性。

3. BrowseComp-VL:多模態(tài)深度研究基準(zhǔn)

為了全面驗(yàn)證 WebWatcher 的能力,研究團(tuán)隊(duì)提出了BrowseComp-VL,它是 BrowseComp 在視覺-語言任務(wù)上的擴(kuò)展版本,設(shè)計(jì)目標(biāo)是逼近人類專家的跨模態(tài)研究任務(wù)難度。該基準(zhǔn)具有以下特點(diǎn):

- 任務(wù)長且信息模糊化:問題往往包含多個(gè)模糊實(shí)體描述,需要跨網(wǎng)頁、跨模態(tài)搜索與整合;- 多工具協(xié)作必要性:任務(wù)無法僅靠感知或文本檢索完成,必須結(jié)合網(wǎng)頁瀏覽、圖像檢索、OCR、代碼執(zhí)行等多種工具;- 真實(shí)網(wǎng)絡(luò)環(huán)境:測試樣本來自真實(shí)網(wǎng)頁與圖像資源,保持復(fù)雜性與不可預(yù)測性。

實(shí)驗(yàn)結(jié)果:刷新多模態(tài)推理與信息檢索新紀(jì)錄

在多輪嚴(yán)格評(píng)測中,WebWatcher 在四大核心領(lǐng)域全面領(lǐng)先于當(dāng)前主流的開源與閉源多模態(tài)大模型,顯示出其在復(fù)雜推理、信息檢索、知識(shí)整合以及聚合類信息尋優(yōu)等任務(wù)上的強(qiáng)勁實(shí)力。

復(fù)雜推理(HLE-VL)在人類終極考試(Humanity’s Last Exam,HLE-VL)這一多步復(fù)雜推理基準(zhǔn)上,WebWatcher以13.6%的Pass@1分?jǐn)?shù)一舉奪魁,大幅領(lǐng)先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)、Qwen2.5-VL-72B(8.6%)等代表性模型。充分證明了其在高難度知識(shí)融合與鏈?zhǔn)經(jīng)Q策中的推理能力。

信息檢索能力(MMSearch)在更貼近真實(shí)多模態(tài)搜索的MMSearch評(píng)測中,WebWatcher 同樣表現(xiàn)卓越,Pass@1得分高達(dá)55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)等大幅領(lǐng)先,展現(xiàn)了極高的檢索精準(zhǔn)性和復(fù)雜場景下的信息聚合能力。

知識(shí)+檢索整合(LiveVQA)LiveVQA是知識(shí)推理與外部信息獲取深度協(xié)同的典型場景。WebWatcher的Pass@1成績達(dá)到58.7%,領(lǐng)先Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%),充分體現(xiàn)了其在知識(shí)調(diào)用、事實(shí)核查與實(shí)時(shí)信息融合等多維技能上的系統(tǒng)性優(yōu)勢(shì)。

信息尋優(yōu)與聚合(BrowseComp-VL)在最具綜合挑戰(zhàn)的BrowseComp-VL基準(zhǔn)(信息聚合型任務(wù))上,WebWatcher 以27.0%的平均得分(Pass@1)遙遙領(lǐng)先,于GPT-4o(13.4%)、Gemini2.5-flash(13.0%)、Qwen2.5-VL-72B(11.5%)、Claude-3.7(11.2%)等國內(nèi)外主流旗艦?zāi)P停煽兲嵘^一倍。該基準(zhǔn)涵蓋了跨網(wǎng)頁、多實(shí)體、模糊表達(dá)等嚴(yán)苛考驗(yàn),彰顯了WebWatcher 在復(fù)雜信息尋優(yōu)與聚合領(lǐng)域的絕對(duì)能力優(yōu)勢(shì)。

綜合來看,WebWatcher不僅在單一任務(wù)維度實(shí)現(xiàn)領(lǐng)先,更在復(fù)合型任務(wù)、跨模態(tài)復(fù)雜推理及真實(shí)信息檢索等方面,奠定了新一代開源多模態(tài)Agent的領(lǐng)先地位。

arxiv:https://arxiv.org/abs/2508.05748
github倉庫:https://github.com/Alibaba-NLP/WebAgent

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-06 14:17:11

模型訓(xùn)練AI

2025-06-17 15:28:03

智能體AI開源

2025-09-17 14:47:51

2024-11-19 15:00:00

模型開源

2025-08-12 08:58:03

2025-06-17 06:28:08

2025-11-06 09:03:00

2025-07-25 10:31:52

2025-07-04 16:50:07

工具AI模型

2025-03-19 09:30:00

2025-04-10 09:15:00

模型AI數(shù)據(jù)

2025-05-06 08:40:00

2025-06-26 09:01:14

2024-10-15 17:28:05

2025-09-23 03:00:00

2025-07-08 09:22:31

2025-05-26 09:49:59

多模態(tài)智能體RAG

2025-02-06 15:07:27

2025-08-07 02:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩电影在线观看中文字幕| 免费a级毛片在线播放| 一区二区三区蜜桃网| 成人av免费在线播放| 不卡视频免费播放| 26uuu亚洲婷婷狠狠天堂| 国产欧美日韩在线视频| **性色生活片久久毛片| 一区二区三区四区视频精品免费 | 尤蜜粉嫩av国产一区二区三区| 亚洲精品无码国产| 被灌满精子的波多野结衣| 大荫蒂性生交片| 成人av一级片| 国产小黄视频| 亚洲有码转帖| 成人影院在线看| 亚洲一级少妇| 97超级碰碰人国产在线观看| 浮生影视网在线观看免费| 国产精品久久久久一区| 精品视频一区二区三区四区| 国产一区二区女| 99在线观看视频| 在线视频亚洲专区| 久久久www成人免费精品张筱雨| 亚洲一区在线看| 精品久久久久久久久久久久久久 | 久久久久久久亚洲精品| 日本国产欧美一区二区三区| 成人亚洲综合色就1024| 欧美日韩在线精品| 男人天堂av片| 91福利免费在线| 欧洲亚洲在线| 黄页在线观看免费| 电影91久久久| 欧美aaaa视频| 日本大胆欧美人术艺术动态| av一区二区三区| 亚洲专区一二三| 欧美一区二区三区思思人| 上原亚衣av一区二区三区| 欧美自拍大量在线观看| 好吊色欧美一区二区三区 | 蜜桃成人av| 国产成人看片| 国产一区二区三区av在线| 亚洲精品二区| 无码精品国产一区二区三区免费| 国产免费专区| 自拍视频在线免费观看| 二区三区不卡| 日韩在线黄色| 国产欧美日本| 91麻豆蜜桃一区二区三区| 亚洲va中文字幕| 欧美精品一区二区三区蜜桃 | 日韩电影一区二区三区四区| 成人动漫视频在线| 亚洲一区二区在线免费看| 欧美日韩高清不卡| 伊人久久久久久久久久| 国产成人在线视频| 色就是色欧美| 国产精品区在线| 日本在线观看www| 日韩成人综合网| 午夜免费一区| 国产99精品国产| 午夜精品视频在线观看| 日韩精品电影网| 国产ts人妖一区二区三区| 日韩视频在线观看国产| 91极品尤物在线播放国产| 免费观看久久久久| 一区二区视频| 国产婷婷精品| 国产免费久久精品| 欧美一区二区三级| 97色在线观看免费视频| 日本一区二区久久精品| av在线影视| 女人让男人操自己视频在线观看 | 久久国产剧场电影| 黄网址在线观看| 亚洲精品国产拍免费91在线| 久久综合精品国产一区二区三区| 亚洲18女电影在线观看| 亚洲人a成www在线影院| 成人国产精品一级毛片视频| av中文字幕一区二区三区| 色成人综合网| 激情综合久久| 国产午夜亚洲精品不卡| 在线不卡免费欧美| 91po在线观看91精品国产性色| 日本免费高清一区| 亚洲美女主播视频免费观看| 欧美黑人粗大| 欧美视频官网| 国产午夜精品久久久久久免费视 | 国产黄大片在线观看画质优化| 精品网站aaa| 国产在线精品一区在线观看麻豆| 亚洲成人一区二区在线观看| 中文字幕精品一区久久久久| 国产在线精品一区二区中文| 色婷婷亚洲十月十月色天| 草草视频在线观看| 欧美伊人久久| 国产精品乱码人人做人人爱| 日韩av影片在线观看| 97超碰人人看人人| www.精品在线| 久久uomeier| 国产手机视频一区二区| 亚洲一区二区黄色| 久热精品视频在线免费观看| 日韩电影免费观看高清完整| 性视频一区二区三区| 99re6热只有精品免费观看| 激情综合网激情| 欧美日韩一区二区三区四区五区| 欧美壮男野外gaytube| 欧美网站免费观看| 亚洲性图自拍| 日韩av密桃| www日韩tube| 5566日本婷婷色中文字幕97| 欧美色视频一区| 午夜精品久久17c| 国产肉体ⅹxxx137大胆| 污片视频在线免费观看| 亚欧美无遮挡hd高清在线视频 | 91亚洲国产成人久久精品网站| 黄色a级片免费| 乡村艳史在线观看| 国产农村妇女精品一二区| 五月综合激情婷婷六月色窝| 久久久久久国产三级电影| 福利在线一区二区| sm在线观看| 国产精品毛片| 91国模大尺度私拍在线视频| 国产盗摄xxxx视频xxx69| 欧洲熟妇精品视频| av亚洲一区| 国产一区二区调教| 精品久久久网站| 狠狠久久综合婷婷不卡| 色猫av在线| 欧美丝袜一区| 亚洲男人的天堂在线aⅴ视频| 欧美国产乱视频| 一女被多男玩喷潮视频| 欧美人体一区二区三区| 小嫩嫩精品导航| 欧美日韩成人一区| 国产精品久久国产三级国电话系列| 免费在线看污| 国内精品久久久久久久久电影网| 中文字幕亚洲在| 国产69精品久久久久9| 欧美日韩国产系列| 欧州一区二区| 午夜大尺度福利视频| 最近中文字幕日韩精品| 精品写真视频在线观看| 在线看的av网站| 国产精品久久久久久久免费大片 | 久久久久欧美| 欧美影视一区在线| 欧美老女人另类| 日韩男人天堂| 国产免费一区二区三区在线能观看| 国产日韩欧美电影| 午夜激情久久| 成人在线免费视频| 国产在线播放不卡| 国产色产综合色产在线视频| 99只有精品| 少妇高清精品毛片在线视频| 久久另类ts人妖一区二区| 国产97免费视| 国产精品日韩在线| 成人频在线观看| 久久最新网址| 一区二区三区不卡视频在线观看 | www.日本三级| 天天综合网站| 粉嫩av一区二区三区| 在线精品91av| 久久久久久久久久久久久国产精品 | 国产乱码精品一区二三赶尸艳谈| 日本欧美在线看| 日韩的一区二区| 久久艹国产精品| 亚洲日本va| 亚洲一区二区不卡免费|