国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

小紅書提出DeepEyesV2,從“看圖思考”到“工具協(xié)同”,探索多模態(tài)智能新維度

人工智能 新聞
DeepEyesV2不僅延續(xù)了DeepEyes的視覺推理優(yōu)勢,更突破性地實現(xiàn)了「代碼執(zhí)行+網(wǎng)頁搜索+圖像操作」的全工具協(xié)同,從「會看細節(jié)」進化為「能主動解決復雜問題的智能體」。

還記得今年上半年小紅書團隊推出的DeepEyes嗎?

是的,就是那款能像人一樣「放大圖片細節(jié)找線索」,基本實現(xiàn)了類似o3「用圖像思考」的多模態(tài)模型。

如今,更強大的版本——DeepEyesV2,重磅發(fā)布。

先說結(jié)論:DeepEyesV2不僅延續(xù)了DeepEyes的視覺推理優(yōu)勢,更突破性地實現(xiàn)了「代碼執(zhí)行+網(wǎng)頁搜索+圖像操作」的全工具協(xié)同,從「會看細節(jié)」進化為「能主動解決復雜問題的智能體」。

下面詳細展開——

多工具協(xié)同的多模態(tài)推理

現(xiàn)有的多模態(tài)大模型雖然能夠理解文本和圖像等多種信息,但是這些模型更像「信息解讀器」——只能被動感知信息,卻不能主動調(diào)用外部工具來解決問題。

因此,受限于兩大痛點:

痛點1:工具調(diào)用能力薄弱。

當你對著一張陌生植物的照片詢問AI——「這是什么花?」

傳統(tǒng)多模態(tài)模型要么完全不具備工具調(diào)用能力,只能依賴內(nèi)部知識庫進行基礎理解;

要么,只能單一調(diào)用某類工具,無法形成組合策略。

比如,DeepEyes雖能通過裁剪工具實現(xiàn)圖像細粒度感知,卻因缺乏信息檢索能力,無法僅憑內(nèi)部知識確定花朵品種;

相比之下,MMSearchR1雖支持搜索,卻因沒有細粒度感知能力,常因「看不清圖像細節(jié)」導致檢索失敗。

這種「單工具依賴」,讓模型在面對復雜任務時束手無策。

痛點2:多能力協(xié)同缺失。

人類解決問題時,會自然串聯(lián)「觀察(感知)→查資料(搜索)→算結(jié)果(推理)」等步驟,但傳統(tǒng)多模態(tài)模型卻難以實現(xiàn)這種協(xié)同。

感知、搜索和推理往往是「各自為戰(zhàn)」,只能完成其中1-2個步驟,難以像人類一樣串聯(lián)成完整解決方案。

DeepEyesV2如何解決這些痛點?

相比于之前的模型,DeepEyesV2通過多工具協(xié)同推理,可以解決真實場景中的復雜問題。

比如,當面對「根據(jù)圖中股票走勢圖,計算該公司2024年4月4日9:30-16:00的跌幅,并對比同期Tootsie Roll Industries(TR)的跌幅。

而涉及到「判斷誰更大」這一復雜問題時,DeepEyesV2則展現(xiàn)出強大的推理能力。

整體過程可以分為三步:

第一步:圖像搜索,獲取更多信息。

DeepEyesV2首先調(diào)用圖像搜索,嘗試獲取關于股價的更多信息。

第二步:文本搜索,嘗試獲取股價。

由于圖像搜索無法提供有效的信息,DeepEyesV2轉(zhuǎn)而進行文本搜索,查詢股價數(shù)據(jù)。

第三步:代碼執(zhí)行,API訪問并計算。

文本搜索也無法提供當時的股價數(shù)據(jù),DeepEyesV2選擇生成代碼,通過API訪問雅虎金融獲取股價數(shù)據(jù),并進行數(shù)值計算,得到最后的結(jié)果。

通過多次搜索、代碼執(zhí)行以及復雜推理,DeepEyesV2最終成功解答這一復雜問題。

值得注意的是,通過代碼訪問API的行為在團隊的訓練數(shù)據(jù)中并不存在,但是DeepEyesV2通過強化學習自主獲得了這一技能。

DeepEyesV2

模型細節(jié)

與DeepEyes類似,DeepEyesV2是一個具有智能體特性的多模態(tài)模型,但它的工具使用能力得到了巨大擴展,不止于簡單的裁剪操作。

在DeepEyesV2中,程序化代碼執(zhí)行和網(wǎng)絡檢索作為外部工具可以在推理過程中被交互調(diào)用,并結(jié)合工具結(jié)果進行進一步推理。

給定圖像輸入及相應的用戶查詢后,DeepEyesV2首先會生成初步的推理計劃,并明確判斷該問題是可以通過內(nèi)部推理直接解決,還是需要調(diào)用工具。

如果有必要使用工具,DeepEyesV2會生成可執(zhí)行的Python代碼或發(fā)出網(wǎng)絡搜索查詢。

代碼執(zhí)行在沙箱環(huán)境中進行,能夠產(chǎn)生結(jié)構(gòu)化輸出,如經(jīng)過處理的圖像、數(shù)值測量結(jié)果、計算數(shù)組、圖表或執(zhí)行日志。

圖像查詢通過SerpAPI提交,返回排名前五的視覺匹配網(wǎng)頁;文本查詢返回五個最相關的網(wǎng)頁,以及標題和片段……所有工具輸出都會被添加到模型的上下文當中。

之后,DeepEyesV2會根據(jù)這些觀察結(jié)果進一步思考,并可能計劃進一步調(diào)用工具,重復這種推理—工具—整合循環(huán),直至得出準確的答案。

簡單來說,DeepEyesV2能夠動態(tài)選擇、組合和使用工具。

這種整合帶來了三個主要優(yōu)勢:

1、通過可執(zhí)行代碼,拓展并增強了分析能力;

2、能夠從網(wǎng)絡檢索多模態(tài)證據(jù),實現(xiàn)主動且實時的知識獲取;

3、在推理過程中,代碼執(zhí)行和搜索可以在單一軌跡中動態(tài)結(jié)合,而非作為孤立的模塊存在,提高了工具調(diào)用的靈活性。

這些特性共同使DeepEyesV2成為一個更通用、可靠且可擴展的多模態(tài)推理框架。

探索實驗

DeepEyes通過強化學習,就可以激發(fā)出模型的圖像思考能力,因此團隊參考DeepEyes的方式,在Qwen2.5-VL-7B上進行了探索實驗。

通過研究是否可以通過強化學習讓模型直接獲得更加復雜的工具使用能力,團隊觀察到兩個關鍵問題。

問題1:早期工具探索「有心無力」,代碼執(zhí)行率低。

在訓練初期,模型雖會生成Python代碼調(diào)用圖像裁剪、數(shù)值計算工具,但輸出的代碼大多存在語法錯誤或邏輯漏洞,導致代碼執(zhí)行成功率低。

隨著訓練進行,模型逐漸放棄代碼生成,最終只收斂到生成簡短的推理鏈,繞過了工具使用。

問題2:「獎勵黑客」現(xiàn)象,模型用「無效操作」騙取獎勵。

為了改善工具調(diào)用效果,團隊引入DeepEyes中驗證有效的「工具使用獎勵機制」,只要模型生成代碼,就額外給予獎勵。

初期確實看到了效果,代碼執(zhí)行成功率一度提升。

但在訓練后期,模型開始「投機取巧」,只輸出一個只有無意義注釋的代碼塊,從而來騙取額外的獎勵,陷入「獎勵黑客」(Reward Hacking)的陷阱。

通過探索實驗,團隊發(fā)現(xiàn),現(xiàn)有的多模態(tài)大模型由于自身能力的不足,無法僅通過直接的強化學習來可靠地學習到復雜的工具使用,也說明了冷啟動的重要性。

兩階段訓練

因此,團隊采用了「冷啟動+強化學習」兩階段訓練策略,讓模型從「會用工具」穩(wěn)步升級到「善用工具」。

階段一:冷啟動—打基礎

通過高質(zhì)量數(shù)據(jù)集為模型打基礎」,讓其掌握工具調(diào)用的基本邏輯。團隊精心篩選了四類數(shù)據(jù):

  • 感知類數(shù)據(jù):需用圖像裁剪、標記工具解決的問題。
  • 推理類數(shù)據(jù):需用代碼計算工具解決的數(shù)學問題。
  • 搜索類數(shù)據(jù):需用聯(lián)網(wǎng)工具解決的問題。
  • CoT數(shù)據(jù):純文本的推理CoT數(shù)據(jù)。

同時,數(shù)據(jù)還經(jīng)過兩層嚴格過濾:

1、難度過濾,只保留基礎模型無法解決的問題;

2、工具收益過濾,確保工具調(diào)用能顯著提升答案準確率。

階段二:強化學習—精優(yōu)化

在冷啟動基礎上,通過「準確率+格式規(guī)范」雙獎勵機制優(yōu)化工具調(diào)用策略。

與傳統(tǒng)復雜獎勵設計不同,DeepEyesV2僅用兩個簡單獎勵:

1、準確率獎勵,根據(jù)最終答案與標準答案的匹配度打分;

2、格式獎勵,對代碼報錯、搜索關鍵詞無效等格式問題進行懲罰。

RealX-Bench

現(xiàn)有的評測集,往往只能測試模型的單一能力(比如看圖識物、數(shù)學計算),但真實世界的問題需要「多能力協(xié)同」。

為此,團隊構(gòu)建了全新基準RealX-Bench,包含300個真實場景問題,覆蓋日常生活、媒體、體育、知識、游戲五大領域。

團隊從真實場景中收集問題并改寫,使得問題符合真實場景的需求,且很多問題都需要多個能力的結(jié)合才能解決。

準確率遠超開源模型

團隊首先在RealX-Bench上對現(xiàn)有模型和DeepEyesV2,進行了評估。

測試顯示,即使是最先進的通用模型,在RealX-Bench上的準確率也不足50%,而DeepEyesV2憑借工具協(xié)同能力,準確率上表現(xiàn)遠超開源模型,尤其是在需要多能力整合的任務上不表現(xiàn)突出。

此外,團隊還在真實世界理解、數(shù)學推理、搜索任務上進行了評估。

結(jié)果顯示:和現(xiàn)有的模型相比,DeepEyesV2取得了巨大的性能提升,這證明了工具調(diào)用的重要性。

深度剖析:數(shù)據(jù)消融與工具偏好

在這之后,團隊進一步通過多組消融實驗,系統(tǒng)探究了不同數(shù)據(jù)類型對模型工具使用能力的影響。

先來看看冷啟動數(shù)據(jù)。這一部分的核心目標是讓模型掌握「基礎工具使用邏輯」。

團隊將冷啟動數(shù)據(jù)分為三類——感知型、推理型、CoT型,并通過消融實驗驗證各類數(shù)據(jù)的作用。

僅用感知型數(shù)據(jù),模型在真實世界感知任務上準確率有明顯提升,但在數(shù)學推理上準確率幾乎無提升。

這說明感知數(shù)據(jù)能讓模型熟練掌握「圖像裁剪、區(qū)域標記」等視覺工具,但無法遷移到需要代碼計算的推理任務,就像學會用放大鏡看細節(jié),卻不會用計算器算數(shù)值。

僅用推理型數(shù)據(jù),模型在數(shù)學推理任務上準確率有所提升,但在真實世界感知任務上準確率有所下降。

團隊分析發(fā)現(xiàn),推理任務需要「代碼生成+邏輯驗證」的復雜工具使用模式,單一推理數(shù)據(jù)缺乏「視覺感知→工具調(diào)用」的銜接訓練,導致模型丟失了感知能力。

相比之下,當在感知+推理數(shù)據(jù)基礎上加入「CoT數(shù)據(jù)」后,模型在理解和推理任務上都有明顯提升。

這是因為,CoT數(shù)據(jù)強化了模型的推理能力,從而促進了模型的復雜工具調(diào)用能力。

因此最優(yōu)的組合,還是——「感知+推理+CoT」。

三類數(shù)據(jù)結(jié)合后,模型在感知和推理測試集上均實現(xiàn)最優(yōu)表現(xiàn),這證明多樣化且包含復雜推理的冷啟動數(shù)據(jù)才能為模型打下「多工具協(xié)同」的基礎。

此后,團隊進一步探究強化學習數(shù)據(jù)的影響,發(fā)現(xiàn)只有多樣化的數(shù)據(jù),才能有效地提高模型的工具調(diào)用能力。

冷啟動讓模型「知道用什么工具」,而強化學習則讓模型「懂得何時用工具」。

團隊通過對比冷啟動后與RL后的工具使用行為,發(fā)現(xiàn)RL不僅優(yōu)化了工具調(diào)用的「準確性」,更讓模型形成了任務自適應的工具使用模式——

這種「按需調(diào)用」智能,正是DeepEyesV2區(qū)別于傳統(tǒng)模型的核心特征。

團隊分析了模型在不同任務上的工具使用分布,發(fā)現(xiàn)冷啟動后模型已具備初步的「任務-工具匹配」邏輯,而RL進一步強化了這種關聯(lián),并推動「跨工具組合」。

DeepEyesV2對于不同的任務,體現(xiàn)出明顯的工具偏好。

對于真實世界感知任務,模型偏向使用裁剪來獲取細粒度的視覺細節(jié),對于OCR任務,DeepEyesV2還會執(zhí)行標記和數(shù)值計算,在圖表相關的任務中,模型會涉及更多的算數(shù)計算。

然而在數(shù)學推理任務上,數(shù)學計算占主導地位,在搜索相關任務中,模型主要使用搜索工具。

此外,團隊通過比較強化學習前后的行為,團隊觀察到明顯的變化。

在強化學習之后,模型開始傾向于執(zhí)行更多的數(shù)值運算,并在搜索任務中也開始將圖像處理工具與搜索相結(jié)合,表明強化學習有助于模型強化了跨工具的協(xié)同。

冷啟動階段,模型存在過度調(diào)用工具的問題,90%以上的任務都會調(diào)用工具,導致推理效率低下。

而強化學習后,工具調(diào)用率顯著下降,表明模型學會了自適應推理,只有當使用工具更加有利時,才會調(diào)用工具,這有效提高了推理的效率。

此外,團隊還追蹤了強化學習訓練過程中工具調(diào)用次數(shù)、響應長度、獎勵值的動態(tài)變化。

團隊發(fā)現(xiàn),輸出長度在不斷下降,且工具調(diào)用的平均次數(shù)也在逐步下降,但是工具調(diào)用的方差仍然很大。

這說明,模型并不是簡單地收斂到固定的工具調(diào)用次數(shù)(比如,每個問題調(diào)用一次工具)。

相反,模型學會了自適應思考,只在必要的時候有選擇地調(diào)用工具。

在面對復雜問題時,工具調(diào)用次數(shù)仍然很高,說明DeepEyesV2能夠根據(jù)任務難度動態(tài)調(diào)整工具調(diào)用策略,體現(xiàn)出真正的自適應推理能力。

結(jié)語

綜上所述,團隊從訓練、數(shù)據(jù)集設計和評估的角度,探索了如何構(gòu)建能夠主動調(diào)用工具并將其融入推理過程的智能體多模態(tài)模型。

團隊的分析揭示了DeepEyesV2具有任務相關的工具使用行為,而強化學習,則讓模型學會更復雜、具有上下文感知的工具組合。

在感知、推理和搜索基準上進行的大量實驗,則進一步證明了DeepEyesV2強大的推理能力,凸顯了將工具調(diào)用與推理相結(jié)合的優(yōu)勢。

論文地址:https://arxiv.org/pdf/2511.05271

項目主頁:https://visual-agent.github.io/

GitHub:https://github.com/Visual-Agent/DeepEyesV2

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-25 16:08:52

2025-06-10 05:00:00

2018-01-18 04:52:07

2025-02-13 09:40:00

2024-12-26 01:20:53

多模態(tài)大模型圖片

2025-08-20 07:49:28

2024-04-29 11:06:53

GDR語言模型

2023-10-27 09:47:22

模態(tài)框架

2025-02-25 10:04:10

2023-10-23 10:02:00

模型技術

2025-08-13 09:00:00

AI模型訓練

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2025-11-04 08:46:00

2025-08-20 07:06:23

2025-08-07 16:24:19

小紅書開源dots.vlm1

2024-10-10 08:19:50

2025-11-05 08:51:33

2025-08-22 15:06:52

2024-05-22 16:01:32

2024-10-12 10:57:39

點贊
收藏

51CTO技術棧公眾號

欧美一区电影| 国产一区二区三区四区五区加勒比 | 99久久99| 日韩成人18| 精品免费视频一区二区| 欧美日韩国产中文字幕在线| 国产精品第13页| 一区二区在线高清视频| 久久亚洲影院| 久久免费一区| 在线观看不卡| 亚洲最大av在线| 欧美天堂影院| 97视频在线播放| 亚洲第一二区| 久久亚洲综合国产精品99麻豆精品福利 | 黄色网在线播放| 亚洲成年人影院| 五月婷婷深爱五月| 99久久精品免费| 亚洲欧美激情网| 国产一区二区亚洲| 日本熟妇人妻中出| aiai久久| 午夜免费久久久久| 国产精品毛片久久久久久久| 中文在线三区| 国产精品乱人伦中文| 超碰精品一区二区三区乱码| 在线观看免费版| 欧美岛国在线观看| 国产大片在线免费观看| 精品一区二区影视| 精品久久久久久久中文字幕| 成人午夜高潮视频| 中国动漫在线观看完整版免费| 伊人春色精品| 亚洲视频资源在线| 国产欧美欧洲在线观看| 日本理论片午伦夜理片在线观看| 国产乱码字幕精品高清av| 欧美激情一级二级| 免费成人动漫| 欧美一卡在线观看| 无码少妇一区二区三区芒果| 不卡的av在线| 肥熟一91porny丨九色丨| 污网站免费在线| 最好看的中文字幕久久| 国产成人午夜精品| 午夜精品福利一区二区三区av | 精品日产免费二区日产免费二区| 国产精品久久二区| 黄色成人在线网站| 日韩视频专区| 91在线一区二区| 免费av网页| 精品视频一区 二区 三区| 色av手机在线| 精品国产一区二区三区久久久| 91欧美极品| 成人免费观看a| 免费美女久久99| 中文字幕永久视频| 欧美日韩国产中文字幕| 不卡视频观看| 97国产精品人人爽人人做| 久久亚洲精品中文字幕蜜潮电影| 久久精品ww人人做人人爽| 国产成人av电影在线| 成年美女网站| 日韩一区二区三区在线观看| 日韩在线激情| 97视频资源在线观看| 国产成人综合网| 香港三级经典全部种子下载| 亚洲成人久久久| 亚洲第一福利社区| 亚洲高清视频在线观看| 亚洲图片欧美激情| mm视频在线视频| 国产美女久久精品| 精品一区二区免费视频| 18成人免费观看视频漫画| 91精品国产高清一区二区三区| 婷婷激情成人| 精品久久久久久一区| 欧美激情在线一区二区三区| 91网在线看| 国产精品久久99久久| 国产高清在线观看免费不卡| 国产无遮挡在线视频免费观看| 亚洲色图在线观看| 狠色狠色综合久久| 亚洲一区日韩精品| 亚洲精品久久久久国产| 亚洲大全视频| 亚洲黄色a v| 日韩欧美国产电影| 成人短片线上看| 人妻夜夜添夜夜无码av| 欧美色图12p| 国产在线日韩精品| 成人免费毛片网| 欧美一区二区在线视频| 久久一区二区三区电影| aaa毛片在线观看| 精品成人免费观看| 最新精品国产| 1069男同网址| 久久综合九色九九| 国内精品国产成人| 国产在线高潮| 91在线免费视频| 欧美激情一区二区三区不卡| 伊人久久在线| 青青草原亚洲| 91国偷自产一区二区开放时间| 天堂日韩电影| 国产成人黄色网址| 日韩视频精品在线| 国产真实乱偷精品视频免| 国产鲁鲁视频在线观看特色| 成人免费福利在线| 一区二区三区91| 久久亚洲黄色| 日韩精品一区二区三区色欲av| 日韩精品一二三四区| 免费日韩av| 五月婷婷在线观看| 高清一区二区三区视频| 天天做天天摸天天爽国产一区| 首页亚洲中字| 色综合小说天天综合网| 美女av一区二区| 91亚洲大成网污www| 欧美电影网址| 大片在线观看网站免费收看| 精品欧美乱码久久久久久| 久久精品人人| av在线网址观看| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | 亚洲成人基地| 日韩av片免费在线观看| 国产精品久久久爽爽爽麻豆色哟哟 | 欧美hd在线| 欧美hdfree性xxxx| 国产福利成人在线| 一区二区三区日韩精品视频| 久久99久久人婷婷精品综合 | 国产视频精品免费播放| 青青青伊人色综合久久| 国产精品yjizz视频网| 亚洲成人动漫在线| 色av吧综合网| www国产成人| 日韩欧美国产成人一区二区| 日韩av网址大全| 男人在线视频资源| 99视频免费观看蜜桃视频| 欧美视频在线一区二区三区 | 国产视频一二三| 91久久久精品| 欧美一级国产精品| 国产一区不卡精品| 欧美.com| 男人天堂2020| 精品国产乱码久久久久久久软件 | 农村寡妇一区二区三区| 日韩精品有码在线观看| 2023国产精品| 欧美视频网址| a级网站在线播放| 黄色一级在线视频| 国产精品h片在线播放| 欧美色老头old∨ideo| 精品一区二区三区视频| 国产精品日本一区二区不卡视频 | 亚洲乱码免费伦视频| 成人三级网址| 久久久久久久午夜| 国产精品第3页| 欧美日韩aaaaa| 成人国产精品免费观看视频| 蜜桃一区二区三区| 四虎亚洲精品| 天堂社区在线视频| 日本韩国精品在线| 国产成人av电影| 久久久激情视频| 91麻豆精东视频| 成人免费视频免费观看| 久久精品国产99国产精品| 麻豆成人在线播放| 国产欧美一区视频| av在线播放成人| 九九热在线视频观看这里只有精品| 欧美精品成人| 日本黄网站免费| 97超碰人人看人人|