国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

RAG升級二維戰(zhàn)士!通義實驗室放大招

發(fā)布于 2025-1-23 10:07
瀏覽
0收藏

??摘要

檢索增強生成(RAG)在開放域問答任務(wù)中表現(xiàn)出色。然而,傳統(tǒng)搜索引擎可能會檢索淺層內(nèi)容,限制了大型語言模型(LLM)處理復(fù)雜、多層次信息的能力。為了解決這個問題,我們引入了WebWalkerQA,一個旨在評估LLM執(zhí)行網(wǎng)頁遍歷能力的基準。它評估LLM系統(tǒng)性地遍歷網(wǎng)站子頁面以獲取對應(yīng)信息的能力。同時我們提出了WebWalker,一個通過explorer-critic范式模擬人類網(wǎng)頁導(dǎo)航的multi-agent框架。廣泛的實驗結(jié)果表明,WebWalkerQA具有挑戰(zhàn)性,證明了結(jié)合WebWalker的RAG在實際場景中通過橫向搜索和縱向頁面挖掘集成的有效性。


RAG場景下,搜索引擎只是對query的橫向網(wǎng)頁搜索,缺少對搜索到的網(wǎng)頁進行縱向的深度深挖!

RAG升級二維戰(zhàn)士!通義實驗室放大招-AI.x社區(qū)

1?? 動機:

大型語言模型(LLM)通常處于知識固定狀態(tài)(無法實時更新)。盡管使用檢索增強生成(RAG)可以獲取最新信息,但傳統(tǒng)搜索引擎(如谷歌、百度等)的橫向搜索方式限制了對信息的深層挖掘能力,無法像人類一樣通過逐步點擊等操作獲取更多細節(jié),從而更“聰明”地獲取所需信息。因此,作者提出了一個新任務(wù)——Web Traversal,旨在給定與查詢相關(guān)的初始網(wǎng)站,系統(tǒng)地遍歷網(wǎng)頁以揭露隱藏在其中的信息。

2?? WebWalkerQA和WebWalker:

  • [Dataset] WebWalkerQA:根據(jù)網(wǎng)站的URL樹,通過四個階段,構(gòu)建單源/多源的easy、medium、hard難度的QA對,涵蓋四種常見官網(wǎng)來源及中英兩種語言。

RAG升級二維戰(zhàn)士!通義實驗室放大招-AI.x社區(qū)

  • [Method] WebWalker:采用多代理框架,由一個探測代理(explorer agent)和一個裁判代理(critic agent)組成。探測代理基于ReAct,遵循思考-行動-觀察范式,模擬人在網(wǎng)頁中點擊按鈕跳轉(zhuǎn)頁面的過程;裁判代理則負責存儲搜索過程中的信息,在探測代理點擊的過程中,保存對查詢有幫助的信息,并判斷何時能夠停止探測代理的探索。

RAG升級二維戰(zhàn)士!通義實驗室放大招-AI.x社區(qū)

3?? 實驗:

  • Table3展示了不同模型作為backbone,WebWalkerQA使用不同方法的代理性能結(jié)果。可以發(fā)現(xiàn)即使是最好的模型gpt-4o在這個任務(wù)也表現(xiàn)較差,任務(wù)中可能涉及到多跳推理和對文本的推理的能力。

RAG升級二維戰(zhàn)士!通義實驗室放大招-AI.x社區(qū)

  • Table4顯示了在close book和目前較好的開源及商用RAG系統(tǒng)上的性能。在close book 設(shè)置下正確率只有10%,因為WebwalkerQA具有高時效性,而LLM具有知識的cutoff,這與第一個limitation呼應(yīng)。在源及商用RAG系統(tǒng)上,最好的效果也只有40,驗證了第二個limitation,傳統(tǒng)搜索引擎可能會檢索淺層內(nèi)容,即使很多閉源的RAG系統(tǒng)使用了query改寫或者agentic的操作,但是還是沒有一步到位定位到的需要的web information source。

RAG升級二維戰(zhàn)士!通義實驗室放大招-AI.x社區(qū)

  • 還包括一系列分析實驗,如下:

RAG升級二維戰(zhàn)士!通義實驗室放大招-AI.x社區(qū)

值得注意的是,webwalker中的memory對于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當作對query進行橫向搜索,webwalker是對頁面的縱向深度探索,這是完全可以互補的。

因此可以把webwalker中的memory拼接到rag鏈路上,這種橫向和縱向整合表現(xiàn)出色,在所有類別和難度的數(shù)據(jù)集上效果均有提升,證明了垂直探索頁面對于提升RAG性能的潛力。這是對RAG二維探索的首次嘗試!

此外,對webwalker 的挖掘點擊次數(shù)進行scale up,看是否能得到更好的、更多的memory信息,隨著挖掘點擊次數(shù)的增大,不僅在webwalker上有較大提升,把memory加入到rag系統(tǒng)之后,性能也隨之提升。這給rag系統(tǒng)進行test-time的拓展提供了新的角度。

?? WebWalker的設(shè)計讓人聯(lián)想到pair programming(對編程),即兩人協(xié)作,一個寫代碼,一個檢查bug。探測代理和裁判代理的功能其實類似于這種協(xié)作。

?? 文章最后提出了三項發(fā)現(xiàn),首次提出了RAG二維探索的scaling潛力,探討如何更“聰明”地進行橫向和垂直兩個方向的探索(test-time compute)。

作者介紹:本文主要作者來自通義實驗室和東南大學(xué)。 

通訊作者是通義實驗室蔣勇和東南大學(xué)周德宇。 

第一作者吳家隆,東南大學(xué)碩士二年級,主要研究方向是Agent和Efficient NLP,該工作在阿里巴巴通義實驗室RAG團隊科研實習(xí)完成

本文轉(zhuǎn)載自 ??NLP前沿??,作者: ??NLP前沿??


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
性欧美videos另类喷潮| 国产视频一区在线观看| 狠狠热免费视频| 欧美性猛交xxxx乱大交退制版| 天天躁日日躁狠狠躁欧美| 含羞草久久爱69一区| 欧美黑人一区| 这里只有精品丝袜| 国内久久精品视频| 加勒比一区二区三区在线| 国内精品久久久久久| 久久久久一区二区三区四区| 日韩欧美精品一区二区综合视频| 偷拍盗摄高潮叫床对白清晰| 欧美日韩国产成人在线免费| 欧美午夜精品| av中文字幕在线| 国产精品久久久久免费| 在线亚洲精品福利网址导航| 一个色综合网| 99精品老司机免费视频| 99久久精品无码一区二区毛片| 欧美性感美女h网站在线观看免费| 日韩精品dvd| 在线观看美女网站大全免费| 91免费在线观看网站| 悠悠色在线精品| 久久电影院7| 91精选在线观看| 国内精品久久久久久久97牛牛| avtt亚洲| 国产日韩欧美在线看| 欧美日韩国产激情| 夜久久久久久| 98色花堂精品视频在线观看| 熟妇熟女乱妇乱女网站| 中文字幕欧美专区| 日本一区二区三区免费乱视频| 日韩理论电影院| 国产一区二区影视| 麻豆传媒网站在线观看| 日本不卡高字幕在线2019| 日韩国产综合| 精品久久一二三| 97国产超碰| 亚洲日本aⅴ片在线观看香蕉| 久久夜色精品一区| 无需播放器亚洲| 精产国品自在线www| 在线观看亚洲视频啊啊啊啊| 欧美精品video| 日韩一区二区电影在线| 91丨porny丨蝌蚪视频| 在线中文一区| 麻豆久久久久| 久久久久久久久久久国产| 精品国产欧美日韩| 日韩成人亚洲| 色综合888| 中文字幕一区二区三区5566| 国产成人短视频| 久热精品视频在线| 午夜亚洲福利老司机| 一区二区毛片| 国产亚洲成av人片在线观黄桃| 国产福利视频在线| 成年人羞羞的网站| 成人免费在线视频播放| 欧洲视频一区二区三区| 国产91色在线免费| 美日韩精品视频免费看| 日韩精品www| 日韩欧美一区在线| 欧美亚洲国产一区二区三区| 成人永久aaa| 日韩在线观看一区二区| 激情亚洲网站| 亚洲高清资源在线观看| 综合亚洲色图| 欧美丰满嫩嫩电影| 91国产成人在线| 亚洲免费av高清| 亚洲美女视频在线| 国产精品毛片a∨一区二区三区| 欧美aⅴ一区二区三区视频| 亚洲制服欧美另类| 免费视频国产一区| 欧美男同视频网| 欧美美女黄色| 日韩免费特黄一二三区| 久久人人爽人人爽人人片av不| 久久精品免视看国产成人| 欧美久久久网站| 亚洲电影有码| 日韩中文字幕一区二区高清99| jizzjizzjizz欧美| 午夜肉伦伦影院| 在线码字幕一区| 黄色一级片播放| 三级在线视频观看| 成人午夜剧场免费观看完整版| 黄色直播在线| a国产在线视频| 性欧美18一19sex性欧美| 风间由美中文字幕在线看视频国产欧美| av成人资源| 婷婷久久综合| 成人美女在线视频| 国产成a人无v码亚洲福利| 久久久精品性| 成人av综合一区| 桃色一区二区| 免费在线看污| 污影院在线观看| 91精品国产一区二区在线观看| 亚洲一区二区三区在线免费| 欧美一级本道电影免费专区| 久久久夜精品| 中文字幕在线不卡视频| 欧美在线播放高清精品| 亚洲午夜未删减在线观看| 97av视频在线| 国产欧美日韩网站| 香蕉视频网站在线观看| 色一区二区三区| 日本欧美视频| 久久精品99国产精品日本| 亚洲黄网站在线观看| 欧美大黄免费观看| 91日韩在线播放| 成人在线看片网站| 欧美国产日韩电影| 久久精品av麻豆的观看方式| 性久久久久久久| 欧美日本亚洲视频| 日韩在线视频在线| 蜜桃免费在线| 欧美高清性xxxxhd| 国产精品日韩一区二区免费视频| 国产 日韩 欧美在线| 成人一级福利| 黄色免费成人| heyzo一本久久综合| 亚洲免费电影一区| 亚洲一区二区三区免费看| 超碰在线无需免费| 欧美极品在线观看| 91美女片黄在线观看| 亚洲全黄一级网站| 一区二区日本伦理| 国产一二三区在线观看| 欧美成人一区二免费视频软件| 懂色av一区二区三区免费观看| 精品五月天久久| 亚洲午夜精品一区二区三区| 成人动漫在线观看视频| 中文字幕www| 天堂俺去俺来也www久久婷婷| 成人av在线看| 欧美日韩国产成人高清视频| caoporn超碰97| 成人在线免费观看视频| 国产精品久久久久久久久免费樱桃 | 九九**精品视频免费播放| 日韩欧美国产一区二区在线播放| 欧洲av一区| 成年女人在线看片| 狠色狠色综合久久| 欧美一区二区免费观在线| 宅男噜噜99国产精品观看免费| 草民电影神马电影一区二区| 91在线观看污| 久久久久国产精品一区| 国产精品三级a三级三级午夜 | 亚洲欧洲精品一区| 欧美在线一级| 亚洲精品国产高清久久伦理二区| 国产日韩一区欧美| 色综合天天色| 一本一本大道香蕉久在线精品| 亚洲一区二区三区涩| 亚洲涩涩av| 精品视频在线播放| 香蕉视频在线免费| 福利一区二区在线| 精品理论电影在线| 国产婷婷97碰碰久久人人蜜臀| 91小视频网站| 亚洲免费在线| 热re99久久精品国产66热| 丁香花在线影院| 亚洲午夜久久久久| 日日摸日日碰夜夜爽av| 新片速递亚洲合集欧美合集| 偷窥少妇高潮呻吟av久久免费| 日韩一级片一区二区| 亚洲高清二区| 国产精品一二三在线| 日韩精品一区二区三区| 日韩欧美高清在线视频|