国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

小紅書提出DeepEyesV2,從“看圖思考”到“工具協(xié)同”,探索多模態(tài)智能新維度

人工智能 新聞
DeepEyesV2不僅延續(xù)了DeepEyes的視覺推理優(yōu)勢,更突破性地實現(xiàn)了「代碼執(zhí)行+網(wǎng)頁搜索+圖像操作」的全工具協(xié)同,從「會看細節(jié)」進化為「能主動解決復雜問題的智能體」。

還記得今年上半年小紅書團隊推出的DeepEyes嗎?

是的,就是那款能像人一樣「放大圖片細節(jié)找線索」,基本實現(xiàn)了類似o3「用圖像思考」的多模態(tài)模型。

如今,更強大的版本——DeepEyesV2,重磅發(fā)布。

先說結(jié)論:DeepEyesV2不僅延續(xù)了DeepEyes的視覺推理優(yōu)勢,更突破性地實現(xiàn)了「代碼執(zhí)行+網(wǎng)頁搜索+圖像操作」的全工具協(xié)同,從「會看細節(jié)」進化為「能主動解決復雜問題的智能體」。

下面詳細展開——

多工具協(xié)同的多模態(tài)推理

現(xiàn)有的多模態(tài)大模型雖然能夠理解文本和圖像等多種信息,但是這些模型更像「信息解讀器」——只能被動感知信息,卻不能主動調(diào)用外部工具來解決問題。

因此,受限于兩大痛點:

痛點1:工具調(diào)用能力薄弱。

當你對著一張陌生植物的照片詢問AI——「這是什么花?」

傳統(tǒng)多模態(tài)模型要么完全不具備工具調(diào)用能力,只能依賴內(nèi)部知識庫進行基礎理解;

要么,只能單一調(diào)用某類工具,無法形成組合策略。

比如,DeepEyes雖能通過裁剪工具實現(xiàn)圖像細粒度感知,卻因缺乏信息檢索能力,無法僅憑內(nèi)部知識確定花朵品種;

相比之下,MMSearchR1雖支持搜索,卻因沒有細粒度感知能力,常因「看不清圖像細節(jié)」導致檢索失敗。

這種「單工具依賴」,讓模型在面對復雜任務時束手無策。

痛點2:多能力協(xié)同缺失。

人類解決問題時,會自然串聯(lián)「觀察(感知)→查資料(搜索)→算結(jié)果(推理)」等步驟,但傳統(tǒng)多模態(tài)模型卻難以實現(xiàn)這種協(xié)同。

感知、搜索和推理往往是「各自為戰(zhàn)」,只能完成其中1-2個步驟,難以像人類一樣串聯(lián)成完整解決方案。

DeepEyesV2如何解決這些痛點?

相比于之前的模型,DeepEyesV2通過多工具協(xié)同推理,可以解決真實場景中的復雜問題。

比如,當面對「根據(jù)圖中股票走勢圖,計算該公司2024年4月4日9:30-16:00的跌幅,并對比同期Tootsie Roll Industries(TR)的跌幅。

而涉及到「判斷誰更大」這一復雜問題時,DeepEyesV2則展現(xiàn)出強大的推理能力。

整體過程可以分為三步:

第一步:圖像搜索,獲取更多信息。

DeepEyesV2首先調(diào)用圖像搜索,嘗試獲取關于股價的更多信息。

第二步:文本搜索,嘗試獲取股價。

由于圖像搜索無法提供有效的信息,DeepEyesV2轉(zhuǎn)而進行文本搜索,查詢股價數(shù)據(jù)。

第三步:代碼執(zhí)行,API訪問并計算。

文本搜索也無法提供當時的股價數(shù)據(jù),DeepEyesV2選擇生成代碼,通過API訪問雅虎金融獲取股價數(shù)據(jù),并進行數(shù)值計算,得到最后的結(jié)果。

通過多次搜索、代碼執(zhí)行以及復雜推理,DeepEyesV2最終成功解答這一復雜問題。

值得注意的是,通過代碼訪問API的行為在團隊的訓練數(shù)據(jù)中并不存在,但是DeepEyesV2通過強化學習自主獲得了這一技能。

DeepEyesV2

模型細節(jié)

與DeepEyes類似,DeepEyesV2是一個具有智能體特性的多模態(tài)模型,但它的工具使用能力得到了巨大擴展,不止于簡單的裁剪操作。

在DeepEyesV2中,程序化代碼執(zhí)行和網(wǎng)絡檢索作為外部工具可以在推理過程中被交互調(diào)用,并結(jié)合工具結(jié)果進行進一步推理。

給定圖像輸入及相應的用戶查詢后,DeepEyesV2首先會生成初步的推理計劃,并明確判斷該問題是可以通過內(nèi)部推理直接解決,還是需要調(diào)用工具。

如果有必要使用工具,DeepEyesV2會生成可執(zhí)行的Python代碼或發(fā)出網(wǎng)絡搜索查詢。

代碼執(zhí)行在沙箱環(huán)境中進行,能夠產(chǎn)生結(jié)構(gòu)化輸出,如經(jīng)過處理的圖像、數(shù)值測量結(jié)果、計算數(shù)組、圖表或執(zhí)行日志。

圖像查詢通過SerpAPI提交,返回排名前五的視覺匹配網(wǎng)頁;文本查詢返回五個最相關的網(wǎng)頁,以及標題和片段……所有工具輸出都會被添加到模型的上下文當中。

之后,DeepEyesV2會根據(jù)這些觀察結(jié)果進一步思考,并可能計劃進一步調(diào)用工具,重復這種推理—工具—整合循環(huán),直至得出準確的答案。

簡單來說,DeepEyesV2能夠動態(tài)選擇、組合和使用工具。

這種整合帶來了三個主要優(yōu)勢:

1、通過可執(zhí)行代碼,拓展并增強了分析能力;

2、能夠從網(wǎng)絡檢索多模態(tài)證據(jù),實現(xiàn)主動且實時的知識獲取;

3、在推理過程中,代碼執(zhí)行和搜索可以在單一軌跡中動態(tài)結(jié)合,而非作為孤立的模塊存在,提高了工具調(diào)用的靈活性。

這些特性共同使DeepEyesV2成為一個更通用、可靠且可擴展的多模態(tài)推理框架。

探索實驗

DeepEyes通過強化學習,就可以激發(fā)出模型的圖像思考能力,因此團隊參考DeepEyes的方式,在Qwen2.5-VL-7B上進行了探索實驗。

通過研究是否可以通過強化學習讓模型直接獲得更加復雜的工具使用能力,團隊觀察到兩個關鍵問題。

問題1:早期工具探索「有心無力」,代碼執(zhí)行率低。

在訓練初期,模型雖會生成Python代碼調(diào)用圖像裁剪、數(shù)值計算工具,但輸出的代碼大多存在語法錯誤或邏輯漏洞,導致代碼執(zhí)行成功率低。

隨著訓練進行,模型逐漸放棄代碼生成,最終只收斂到生成簡短的推理鏈,繞過了工具使用。

問題2:「獎勵黑客」現(xiàn)象,模型用「無效操作」騙取獎勵。

為了改善工具調(diào)用效果,團隊引入DeepEyes中驗證有效的「工具使用獎勵機制」,只要模型生成代碼,就額外給予獎勵。

初期確實看到了效果,代碼執(zhí)行成功率一度提升。

但在訓練后期,模型開始「投機取巧」,只輸出一個只有無意義注釋的代碼塊,從而來騙取額外的獎勵,陷入「獎勵黑客」(Reward Hacking)的陷阱。

通過探索實驗,團隊發(fā)現(xiàn),現(xiàn)有的多模態(tài)大模型由于自身能力的不足,無法僅通過直接的強化學習來可靠地學習到復雜的工具使用,也說明了冷啟動的重要性。

兩階段訓練

因此,團隊采用了「冷啟動+強化學習」兩階段訓練策略,讓模型從「會用工具」穩(wěn)步升級到「善用工具」。

階段一:冷啟動—打基礎

通過高質(zhì)量數(shù)據(jù)集為模型打基礎」,讓其掌握工具調(diào)用的基本邏輯。團隊精心篩選了四類數(shù)據(jù):

  • 感知類數(shù)據(jù):需用圖像裁剪、標記工具解決的問題。
  • 推理類數(shù)據(jù):需用代碼計算工具解決的數(shù)學問題。
  • 搜索類數(shù)據(jù):需用聯(lián)網(wǎng)工具解決的問題。
  • CoT數(shù)據(jù):純文本的推理CoT數(shù)據(jù)。

同時,數(shù)據(jù)還經(jīng)過兩層嚴格過濾:

1、難度過濾,只保留基礎模型無法解決的問題;

2、工具收益過濾,確保工具調(diào)用能顯著提升答案準確率。

階段二:強化學習—精優(yōu)化

在冷啟動基礎上,通過「準確率+格式規(guī)范」雙獎勵機制優(yōu)化工具調(diào)用策略。

與傳統(tǒng)復雜獎勵設計不同,DeepEyesV2僅用兩個簡單獎勵:

1、準確率獎勵,根據(jù)最終答案與標準答案的匹配度打分;

2、格式獎勵,對代碼報錯、搜索關鍵詞無效等格式問題進行懲罰。

RealX-Bench

現(xiàn)有的評測集,往往只能測試模型的單一能力(比如看圖識物、數(shù)學計算),但真實世界的問題需要「多能力協(xié)同」。

為此,團隊構(gòu)建了全新基準RealX-Bench,包含300個真實場景問題,覆蓋日常生活、媒體、體育、知識、游戲五大領域。

團隊從真實場景中收集問題并改寫,使得問題符合真實場景的需求,且很多問題都需要多個能力的結(jié)合才能解決。

準確率遠超開源模型

團隊首先在RealX-Bench上對現(xiàn)有模型和DeepEyesV2,進行了評估。

測試顯示,即使是最先進的通用模型,在RealX-Bench上的準確率也不足50%,而DeepEyesV2憑借工具協(xié)同能力,準確率上表現(xiàn)遠超開源模型,尤其是在需要多能力整合的任務上不表現(xiàn)突出。

此外,團隊還在真實世界理解、數(shù)學推理、搜索任務上進行了評估。

結(jié)果顯示:和現(xiàn)有的模型相比,DeepEyesV2取得了巨大的性能提升,這證明了工具調(diào)用的重要性。

深度剖析:數(shù)據(jù)消融與工具偏好

在這之后,團隊進一步通過多組消融實驗,系統(tǒng)探究了不同數(shù)據(jù)類型對模型工具使用能力的影響。

先來看看冷啟動數(shù)據(jù)。這一部分的核心目標是讓模型掌握「基礎工具使用邏輯」。

團隊將冷啟動數(shù)據(jù)分為三類——感知型、推理型、CoT型,并通過消融實驗驗證各類數(shù)據(jù)的作用。

僅用感知型數(shù)據(jù),模型在真實世界感知任務上準確率有明顯提升,但在數(shù)學推理上準確率幾乎無提升。

這說明感知數(shù)據(jù)能讓模型熟練掌握「圖像裁剪、區(qū)域標記」等視覺工具,但無法遷移到需要代碼計算的推理任務,就像學會用放大鏡看細節(jié),卻不會用計算器算數(shù)值。

僅用推理型數(shù)據(jù),模型在數(shù)學推理任務上準確率有所提升,但在真實世界感知任務上準確率有所下降。

團隊分析發(fā)現(xiàn),推理任務需要「代碼生成+邏輯驗證」的復雜工具使用模式,單一推理數(shù)據(jù)缺乏「視覺感知→工具調(diào)用」的銜接訓練,導致模型丟失了感知能力。

相比之下,當在感知+推理數(shù)據(jù)基礎上加入「CoT數(shù)據(jù)」后,模型在理解和推理任務上都有明顯提升。

這是因為,CoT數(shù)據(jù)強化了模型的推理能力,從而促進了模型的復雜工具調(diào)用能力。

因此最優(yōu)的組合,還是——「感知+推理+CoT」。

三類數(shù)據(jù)結(jié)合后,模型在感知和推理測試集上均實現(xiàn)最優(yōu)表現(xiàn),這證明多樣化且包含復雜推理的冷啟動數(shù)據(jù)才能為模型打下「多工具協(xié)同」的基礎。

此后,團隊進一步探究強化學習數(shù)據(jù)的影響,發(fā)現(xiàn)只有多樣化的數(shù)據(jù),才能有效地提高模型的工具調(diào)用能力。

冷啟動讓模型「知道用什么工具」,而強化學習則讓模型「懂得何時用工具」。

團隊通過對比冷啟動后與RL后的工具使用行為,發(fā)現(xiàn)RL不僅優(yōu)化了工具調(diào)用的「準確性」,更讓模型形成了任務自適應的工具使用模式——

這種「按需調(diào)用」智能,正是DeepEyesV2區(qū)別于傳統(tǒng)模型的核心特征。

團隊分析了模型在不同任務上的工具使用分布,發(fā)現(xiàn)冷啟動后模型已具備初步的「任務-工具匹配」邏輯,而RL進一步強化了這種關聯(lián),并推動「跨工具組合」。

DeepEyesV2對于不同的任務,體現(xiàn)出明顯的工具偏好。

對于真實世界感知任務,模型偏向使用裁剪來獲取細粒度的視覺細節(jié),對于OCR任務,DeepEyesV2還會執(zhí)行標記和數(shù)值計算,在圖表相關的任務中,模型會涉及更多的算數(shù)計算。

然而在數(shù)學推理任務上,數(shù)學計算占主導地位,在搜索相關任務中,模型主要使用搜索工具。

此外,團隊通過比較強化學習前后的行為,團隊觀察到明顯的變化。

在強化學習之后,模型開始傾向于執(zhí)行更多的數(shù)值運算,并在搜索任務中也開始將圖像處理工具與搜索相結(jié)合,表明強化學習有助于模型強化了跨工具的協(xié)同。

冷啟動階段,模型存在過度調(diào)用工具的問題,90%以上的任務都會調(diào)用工具,導致推理效率低下。

而強化學習后,工具調(diào)用率顯著下降,表明模型學會了自適應推理,只有當使用工具更加有利時,才會調(diào)用工具,這有效提高了推理的效率。

此外,團隊還追蹤了強化學習訓練過程中工具調(diào)用次數(shù)、響應長度、獎勵值的動態(tài)變化。

團隊發(fā)現(xiàn),輸出長度在不斷下降,且工具調(diào)用的平均次數(shù)也在逐步下降,但是工具調(diào)用的方差仍然很大。

這說明,模型并不是簡單地收斂到固定的工具調(diào)用次數(shù)(比如,每個問題調(diào)用一次工具)。

相反,模型學會了自適應思考,只在必要的時候有選擇地調(diào)用工具。

在面對復雜問題時,工具調(diào)用次數(shù)仍然很高,說明DeepEyesV2能夠根據(jù)任務難度動態(tài)調(diào)整工具調(diào)用策略,體現(xiàn)出真正的自適應推理能力。

結(jié)語

綜上所述,團隊從訓練、數(shù)據(jù)集設計和評估的角度,探索了如何構(gòu)建能夠主動調(diào)用工具并將其融入推理過程的智能體多模態(tài)模型。

團隊的分析揭示了DeepEyesV2具有任務相關的工具使用行為,而強化學習,則讓模型學會更復雜、具有上下文感知的工具組合。

在感知、推理和搜索基準上進行的大量實驗,則進一步證明了DeepEyesV2強大的推理能力,凸顯了將工具調(diào)用與推理相結(jié)合的優(yōu)勢。

論文地址:https://arxiv.org/pdf/2511.05271

項目主頁:https://visual-agent.github.io/

GitHub:https://github.com/Visual-Agent/DeepEyesV2

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-25 16:08:52

2025-06-10 05:00:00

2018-01-18 04:52:07

2025-02-13 09:40:00

2024-12-26 01:20:53

多模態(tài)大模型圖片

2025-08-20 07:49:28

2024-04-29 11:06:53

GDR語言模型

2023-10-27 09:47:22

模態(tài)框架

2025-02-25 10:04:10

2023-10-23 10:02:00

模型技術

2025-08-13 09:00:00

AI模型訓練

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2025-11-04 08:46:00

2025-08-20 07:06:23

2025-08-07 16:24:19

小紅書開源dots.vlm1

2024-10-10 08:19:50

2025-11-05 08:51:33

2025-08-22 15:06:52

2024-05-22 16:01:32

2024-10-12 10:57:39

點贊
收藏

51CTO技術棧公眾號

日本中文字幕一区二区| 欧美丰满熟妇xxxxx| 26uuu亚洲电影在线观看| 久久夜色精品一区| 国产不卡精品视男人的天堂| 成人在线免费看片| 一区二区三区在线不卡| 国产精品久久一区二区三区| 九七影院97影院理论片久久| 亚洲电影在线播放| 国产树林野战在线播放| 要久久电视剧全集免费| 国产精品一区二区三区av| 精品日本美女福利在线观看| 国产一区二区视频免费在线观看 | 亚洲精品在线电影| 中文字幕毛片| 久久精品人人做人人爽97| 一本久久a久久精品vr综合| 午夜欧美精品| 国产999精品| av日韩在线播放| 亚洲视频在线视频| 日本在线观看| 狠狠色狠色综合曰曰| 免费激情网址| 中文字幕乱码一区二区免费| 亚洲电影中文字幕| 窝窝九色成人影院| 国产三级精品三级在线专区| www.xxx麻豆| 成人小视频免费在线观看| 色香蕉在线观看| k8久久久一区二区三区| 5月婷婷6月丁香| 国产精品毛片大码女人| 韩国视频一区二区三区| 中文字幕中文在线不卡住| 久久久亚洲精华液精华液精华液| 国产精品免费丝袜| 中文在线a在线| 欧美精品18+| 欧美日韩精品综合| 国产日韩精品视频一区二区三区| 亚洲精品tv久久久久久久久| 成人精品一区二区三区中文字幕| 三级a三级三级三级a十八发禁止| 一区二区三区在线影院| 在线观看麻豆蜜桃| 欧美伊人久久大香线蕉综合69| 日韩一区二区三区精品| 免费欧美一级视频| 日韩一区视频在线| 日本特黄久久久高潮| 欧美私人网站| 国产成人午夜视频网址| 亚洲欧美另类动漫| 久久国产精品99久久人人澡| 日韩精品一二| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 精品无人乱码| 国产97免费视| 国产欧美一区二区三区在线老狼| 国产在线一二三| 亚洲精品99久久久久| 国产欧美自拍| 国产精品亚洲一区二区三区妖精| 亚洲男男gay视频| 久久精品视频播放| 久久在线视频| 日本一极黄色片| 777午夜精品视频在线播放| 欧美电影完整版在线观看| 肉大捧一出免费观看网站在线播放| 欧美性生活大片视频| 一区二区三区网站| xx免费视频| 欧美疯狂xxxx大交乱88av| 神马久久精品| 国产不卡一区二区在线播放| 亚洲精品.com| 亚洲一区二区不卡视频| 欧美mv和日韩mv国产网站| 亚洲精品美女91| a天堂在线资源| 95av在线视频| 亚洲精品动态| 永久免费的av网站| 欧美劲爆第一页| 久久青草视频| a级片一区二区| 在线一区二区日韩| 18+激情视频在线| 999热视频在线观看| 黑人狂躁日本妞一区二区三区| 成人在线一区| 亚洲精品男人| 国产在线视频欧美一区二区三区| 678五月天丁香亚洲综合网| 欧美激情四色| 成人福利影视| 日本网站免费在线观看| 91国语精品自产拍在线观看性色| 亚洲靠逼com| 美女精品在线观看| 欧美在线va视频| 琪琪亚洲精品午夜在线| 亚洲人体影院| 啊啊啊好爽视频| 91精品综合视频| 亚洲国产97在线精品一区| 国产精品一区不卡| 国产一区二区电影在线观看| 精品无人乱码| 免费超爽大片黄| 欧美一级日本a级v片| 久久久久久12| 欧美日韩免费视频| www.欧美.com| 国产精品黄色| 久久综合九九| 97视频在线看| 亚洲系列中文字幕| 亚洲免费电影在线| 久久久久亚洲蜜桃| 蜜臀av在线播放一区二区三区| 欧美亚洲国产精品久久| 青青在线精品| 91资源在线观看| 嫩草研究院在线观看| 欧美精品一区二区三区免费播放| 国产不卡一区二区在线观看 | 国产一区二区三区的电影| 99热精品久久| 爽好多水快深点欧美视频| 国产成人免费在线观看| 久久久亚洲午夜电影| 亚洲色图视频网| 一本一本久久a久久精品综合麻豆| 精品福利樱桃av导航| 亚洲精品裸体| 久久这里有精品15一区二区三区| 久久国产精品无码网站| 国产一区二区三区四区五区美女| 美女任你摸久久| 成人av电影在线| 国产日本欧洲亚洲| 亚洲精品视频免费看| 色综合天天综合在线视频| 亚洲欧美综合精品久久成人| 欧美色综合网站| 在线观看成人小视频| 日韩欧美在线观看| 午夜国产精品影院在线观看| 日韩欧美中文第一页| 欧美性猛交xxxxx水多| 日本韩国精品在线| 伊人久久99| 粉嫩av免费一区二区三区| 91丝袜脚交足在线播放| 久中文字幕一区| 日本wwwcom| 日本成人黄色网址| 欧美在线一卡| jizz亚洲| 成人在线视频免费| 一道在线中文一区二区三区| 在线播放日韩| 国产成人亚洲综合a∨婷婷| 国产欧美精品区一区二区三区 | 1区不卡电影| 免费资源在线观看| 国产在线88av| 日韩黄色三级在线观看| 欧美国产小视频| 日本免费新一区视频| 91麻豆国产自产在线观看| 亚洲一区电影777| 日韩亚洲电影在线| 亚洲人成电影在线播放| 51午夜精品视频| 亚洲欧美日韩精品综合在线观看| 男人揉女人奶房视频60分 | 日韩精品视频一区二区在线观看| 激情综合网五月激情 | 三级视频中文字幕| eeuss鲁片一区| 激情影院在线| 欧美天天综合| 九九在线精品视频| 亚洲一二三四在线观看| 伊人青青综合网站| 久久久久久艹| 97影院理论| jvid一区二区三区| 亚洲国产免费| 亚洲人午夜精品天堂一二香蕉| 麻豆国产精品va在线观看不卡| 国产综合 伊人色| 先锋影音欧美性受|