国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

阿里發布信息檢索Agent,可自主上網查資料,GAIA基準超越GPT-4o

人工智能 新聞
阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

Agent能“看懂網頁”,像人類一樣上網?

阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

只要輸入指令,它就可以幫你上網搜索、做攻略,實現自主信息檢索代理和類似深度研究模型的推理。

傳統模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。

圖片

WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數,優于基線模型和部分開源框架。

模型和方法均已開源,網友直呼想試:

圖片

WebDancer的秘密武器

不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執行多步驟和復雜推理的長期任務,例如網頁遍歷、信息搜索和問答。

它的“秘密武器”是一種四階段訓練范式,包括瀏覽數據構建、軌跡采樣、針對有效冷啟動的監督微調以及用于改進泛化能力的強化學習。

阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

1、瀏覽數據構建

圖片

這一步的目標是創建覆蓋真實的網頁環境、需要多步交互的復雜QA對。

可以分為兩個網絡數據生成流程,如上圖所示。

在CRAWLQA中,需要先收集知識性網站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

使用預定義規則,就可以利用GPT4o根據收集到的信息生成QA對(1.0版)了。

對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰性的實例。

依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

2、軌跡采樣

圖片

這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執行軌跡。

WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

在思維階段,模型會根據輸入生成推理鏈,然后在動作階段將參數為結構化JSON,最后在觀察階段返回結果(如網頁摘要或搜索片段)。

思維階段生成的思維鏈對智能體執行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

  • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
  • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。

因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監督信號保留在了生成的軌跡中。

隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

3、有監督微調

圖片

在獲得ReAct格式的優質軌跡后,就可以將其無縫整合到智能體的有監督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:

其中tc是任務上下文,為完整的智能體執行軌跡,每個代表思考/行動/觀察,過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

SFT階段為后續的RL階段提供了強大的初始化。

4、強化學習

這一步的目標是優化代理在真實網絡環境中的決策能力和泛化能力。

在SFT階段的基礎上,本階段采用解耦裁剪動態采樣策略優化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

DAPO是一種基于獎勵模型R的策略優化算法,其工作原理如下:

首先,對于每個包含部分答案的階段軌跡,算法生成一組候選執行序列。通過最大化以下目標更新策略:

隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

最后,采用新舊策略的概率比替代固定KL懲罰項:

獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

最終獎勵函數為:

有效性分析

圖片

在GAIA和WebWalkerQA這兩個成熟的基準數據集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優于基線模型和部分開源智能體框架。

可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

閉源代理系統OpenAI DR通過端到端強化學習訓練實現了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。

在兩個更具挑戰性的數據集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現出持續強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。

鑒于智能體環境的動態性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

值得注意的是,經過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

對于語言推理模型(LRMs),雖然經過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:45:30

2025-06-06 14:17:11

模型訓練AI

2024-08-30 14:35:00

2024-06-21 09:51:17

2024-11-26 14:30:00

模型數據

2025-06-04 09:05:18

2025-08-07 14:05:40

OpenAI大模型開源

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-05-20 08:20:00

OpenAI模型

2024-12-18 13:24:30

谷歌AI大語言模型

2024-06-28 18:13:05

2024-05-14 11:29:15

2024-08-08 14:27:29

2025-07-07 09:05:00

AI數據模型

2025-01-06 13:15:02

2024-08-02 14:58:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2025-11-04 08:42:27

點贊
收藏

51CTO技術棧公眾號

玖草视频在线| 国产精品一级久久久| 在线中文字幕资源| 国产一区二区三区久久久| 成人激情视频在线播放| 不卡的国产精品| 最近更新的2019中文字幕| 成人免费网站在线观看视频| 一级特黄大欧美久久久| 狠狠热免费视频| 成人激情午夜影院| 青青草国产免费| 91看片淫黄大片一级| 亚洲亚洲精品三区日韩精品在线视频 | 精品一级毛片| 17婷婷久久www| 日本综合视频| 亚洲欧美成人网| 98色花堂精品视频在线观看| 在线精品视频一区二区三四| 天堂在线看视频| 国产精品久久网站| 国产精品69页| 久久久久国产免费免费| 大肉大捧一进一出好爽视频| 国产黄色精品网站| av磁力番号网| 狠狠色综合播放一区二区| 成人国产在线看| 嫩草影院永久入口| 国产精品小仙女| 在线欧美一级视频| 欧美激情视频一区二区三区在线播放| 草民午夜欧美限制a级福利片| 精品淫伦v久久水蜜桃| 99r国产精品视频| 国产91丝袜在线观看| 久草在线新资源| 国产一区二区三区毛片| 日韩精品午夜| 国产视频在线观看网站| 黄色一区二区在线| 免费看的毛片| 国产呦精品一区二区三区网站| 亚洲男人的天堂网| 7777奇米亚洲综合久久| 成人中文字幕视频| 日韩h在线观看| 欧美黄色网页| 91天堂在线观看| 一区二区三区国产精品| 欧美大片免费| 亚洲一区二区三区视频| 日本欧洲一区二区| 动漫黄在线观看| 欧美国产激情18| 97国产一区二区| 狠狠躁狠狠躁视频专区| 高清国产一区二区| 999精彩视频| 69精品人人人人| 亚洲国产中文在线| av蓝导航精品导航| 日韩西西人体444www| 狠狠爱成人网| 亚洲自拍小视频免费观看| 日韩欧美在线免费| 天天综合国产| 日韩av综合| 九色91在线| 日本一区二区三区电影| 欧美日韩中文字幕在线播放| 欧美大片一区二区| 国产亚洲精品精品国产亚洲综合| 国产原创精品| 欧美理论电影在线| 视频一区中文| 菠萝菠萝蜜在线观看| 亚洲精品成人久久| 亚洲91网站| 伊甸园精品99久久久久久| 在线一区二区三区做爰视频网站| 亚洲青青一区| 5月婷婷6月丁香| 亚洲欧美日韩久久久久久| 久久精品国产99国产精品| yw.尤物在线精品视频| 国产激情片在线观看| 中文字幕日韩av| 亚洲香蕉伊在人在线观| 国产精品片aa在线观看| 少妇高潮久久77777| 亚洲三级性片| 亚洲精蜜桃久在线| 中文字幕电影一区| 日本视频不卡| 久久久久久香蕉网| 国产免费成人| 韩国一区二区av| 欧美喷潮久久久xxxxx| 日韩欧美专区| 狠狠色综合网站久久久久久久| www.日韩精品| 秋霞a级毛片在线看| 欧美成人精品影院| 一本色道久久综合| 孩娇小videos精品| 亚洲国产高清福利视频| 国产伦一区二区三区| 亚洲欧美综合一区| 亚洲亚洲精品在线观看| 欧美大胆成人| 国产伦精品一区| 中文在线一区二区| 黄网站在线观| 91久久综合亚洲鲁鲁五月天| 成人高清伦理免费影院在线观看| 亚洲精品套图| 欧美成在线观看| 蜜乳av一区二区三区| 人成在线免费视频| 91黄色8090| 91久久一区二区| 欧美电影免费网站| 欧洲精品在线播放| 最近2019中文字幕在线高清| 国产在线播放一区| 国产伦精品一区二区三区视频金莲| 日本高清xxxx| 美女精品久久久| 亚洲v中文字幕| 在线亚洲自拍| 欧美18—19sex性hd| 99精品在线免费视频| 欧美一级成年大片在线观看| 欧美精品18+| 在线观看不卡| 亚洲大胆人体大胆做受1| 欧美激情精品久久久久久变态| 午夜视频一区| 调教一区二区| 久久精品99国产| 99久久免费国| 久久在线免费观看视频| 精品视频在线播放免| 国产一区日韩一区| 麻豆视频网站在线观看| 欧美一区二区三区四区夜夜大片| 精品欧美久久久| 久久九九有精品国产23| 日本老师69xxx| 亚洲天堂第二页| 国产视频一区在线观看| 自拍偷拍国产精品| 91精品国产综合久久精品麻豆 | 蜜臀精品一区二区| www99热| av电影在线观看| 亚洲免费一区| 亚洲人成免费| 国产精品三级电影| 国产亚洲精久久久久久| 精品国产乱码久久久久久果冻传媒| 日韩脚交footjobhd| 日本成在线观看| 青青草娱乐在线| 国产毛片视频| 日韩激情图片| 男男视频在线观看网站| 欧美激情一区二区三区在线视频观看 | 狠狠88综合久久久久综合网| 亚洲kkk444kkk在线观看| 国产精自产拍久久久久久| 亚洲自拍与偷拍| 在线电影一区二区| 粗大黑人巨茎大战欧美成人| 午夜精品电影在线观看| 亚洲精品在线看| 久久众筹精品私拍模特| 成人免费视频91| 日本福利在线观看| 欧美日韩精品一区二区视频| 韩国亚洲精品| 亚洲一级一区| 精品一区二区三区视频在线观看| 日韩av不卡一区| 99免费视频观看| 97超碰色婷婷| 精品久久久香蕉免费精品视频| 在线中文字幕亚洲| 国产在线高清理伦片a| 久久久久亚洲av无码专区喷水| 日韩中文字幕在线视频| 亚洲人精品午夜| 影音先锋亚洲精品| 欧美日韩视频网站| 超污网站在线观看| 久久国产精品一区二区三区| 国产一级揄自揄精品视频| 亚洲人成人一区二区在线观看|