小紅書提出DeepEyesV2,從“看圖思考”到“工具協(xié)同”,探索多模態(tài)智能新維度
還記得今年上半年小紅書團隊推出的DeepEyes嗎?
是的,就是那款能像人一樣「放大圖片細節(jié)找線索」,基本實現(xiàn)了類似o3「用圖像思考」的多模態(tài)模型。
如今,更強大的版本——DeepEyesV2,重磅發(fā)布。

先說結(jié)論:DeepEyesV2不僅延續(xù)了DeepEyes的視覺推理優(yōu)勢,更突破性地實現(xiàn)了「代碼執(zhí)行+網(wǎng)頁搜索+圖像操作」的全工具協(xié)同,從「會看細節(jié)」進化為「能主動解決復雜問題的智能體」。
下面詳細展開——
多工具協(xié)同的多模態(tài)推理
現(xiàn)有的多模態(tài)大模型雖然能夠理解文本和圖像等多種信息,但是這些模型更像「信息解讀器」——只能被動感知信息,卻不能主動調(diào)用外部工具來解決問題。
因此,受限于兩大痛點:
痛點1:工具調(diào)用能力薄弱。
當你對著一張陌生植物的照片詢問AI——「這是什么花?」
傳統(tǒng)多模態(tài)模型要么完全不具備工具調(diào)用能力,只能依賴內(nèi)部知識庫進行基礎理解;
要么,只能單一調(diào)用某類工具,無法形成組合策略。
比如,DeepEyes雖能通過裁剪工具實現(xiàn)圖像細粒度感知,卻因缺乏信息檢索能力,無法僅憑內(nèi)部知識確定花朵品種;
相比之下,MMSearchR1雖支持搜索,卻因沒有細粒度感知能力,常因「看不清圖像細節(jié)」導致檢索失敗。
這種「單工具依賴」,讓模型在面對復雜任務時束手無策。
痛點2:多能力協(xié)同缺失。
人類解決問題時,會自然串聯(lián)「觀察(感知)→查資料(搜索)→算結(jié)果(推理)」等步驟,但傳統(tǒng)多模態(tài)模型卻難以實現(xiàn)這種協(xié)同。
感知、搜索和推理往往是「各自為戰(zhàn)」,只能完成其中1-2個步驟,難以像人類一樣串聯(lián)成完整解決方案。
DeepEyesV2如何解決這些痛點?

相比于之前的模型,DeepEyesV2通過多工具協(xié)同推理,可以解決真實場景中的復雜問題。
比如,當面對「根據(jù)圖中股票走勢圖,計算該公司2024年4月4日9:30-16:00的跌幅,并對比同期Tootsie Roll Industries(TR)的跌幅。
而涉及到「判斷誰更大」這一復雜問題時,DeepEyesV2則展現(xiàn)出強大的推理能力。
整體過程可以分為三步:
第一步:圖像搜索,獲取更多信息。
DeepEyesV2首先調(diào)用圖像搜索,嘗試獲取關于股價的更多信息。
第二步:文本搜索,嘗試獲取股價。
由于圖像搜索無法提供有效的信息,DeepEyesV2轉(zhuǎn)而進行文本搜索,查詢股價數(shù)據(jù)。
第三步:代碼執(zhí)行,API訪問并計算。
文本搜索也無法提供當時的股價數(shù)據(jù),DeepEyesV2選擇生成代碼,通過API訪問雅虎金融獲取股價數(shù)據(jù),并進行數(shù)值計算,得到最后的結(jié)果。
通過多次搜索、代碼執(zhí)行以及復雜推理,DeepEyesV2最終成功解答這一復雜問題。
值得注意的是,通過代碼訪問API的行為在團隊的訓練數(shù)據(jù)中并不存在,但是DeepEyesV2通過強化學習自主獲得了這一技能。
DeepEyesV2
模型細節(jié)
與DeepEyes類似,DeepEyesV2是一個具有智能體特性的多模態(tài)模型,但它的工具使用能力得到了巨大擴展,不止于簡單的裁剪操作。

在DeepEyesV2中,程序化代碼執(zhí)行和網(wǎng)絡檢索作為外部工具可以在推理過程中被交互調(diào)用,并結(jié)合工具結(jié)果進行進一步推理。
給定圖像輸入及相應的用戶查詢后,DeepEyesV2首先會生成初步的推理計劃,并明確判斷該問題是可以通過內(nèi)部推理直接解決,還是需要調(diào)用工具。
如果有必要使用工具,DeepEyesV2會生成可執(zhí)行的Python代碼或發(fā)出網(wǎng)絡搜索查詢。
代碼執(zhí)行在沙箱環(huán)境中進行,能夠產(chǎn)生結(jié)構(gòu)化輸出,如經(jīng)過處理的圖像、數(shù)值測量結(jié)果、計算數(shù)組、圖表或執(zhí)行日志。
圖像查詢通過SerpAPI提交,返回排名前五的視覺匹配網(wǎng)頁;文本查詢返回五個最相關的網(wǎng)頁,以及標題和片段……所有工具輸出都會被添加到模型的上下文當中。
之后,DeepEyesV2會根據(jù)這些觀察結(jié)果進一步思考,并可能計劃進一步調(diào)用工具,重復這種推理—工具—整合循環(huán),直至得出準確的答案。
簡單來說,DeepEyesV2能夠動態(tài)選擇、組合和使用工具。
這種整合帶來了三個主要優(yōu)勢:
1、通過可執(zhí)行代碼,拓展并增強了分析能力;
2、能夠從網(wǎng)絡檢索多模態(tài)證據(jù),實現(xiàn)主動且實時的知識獲取;
3、在推理過程中,代碼執(zhí)行和搜索可以在單一軌跡中動態(tài)結(jié)合,而非作為孤立的模塊存在,提高了工具調(diào)用的靈活性。
這些特性共同使DeepEyesV2成為一個更通用、可靠且可擴展的多模態(tài)推理框架。
探索實驗
DeepEyes通過強化學習,就可以激發(fā)出模型的圖像思考能力,因此團隊參考DeepEyes的方式,在Qwen2.5-VL-7B上進行了探索實驗。

通過研究是否可以通過強化學習讓模型直接獲得更加復雜的工具使用能力,團隊觀察到兩個關鍵問題。
問題1:早期工具探索「有心無力」,代碼執(zhí)行率低。
在訓練初期,模型雖會生成Python代碼調(diào)用圖像裁剪、數(shù)值計算工具,但輸出的代碼大多存在語法錯誤或邏輯漏洞,導致代碼執(zhí)行成功率低。
隨著訓練進行,模型逐漸放棄代碼生成,最終只收斂到生成簡短的推理鏈,繞過了工具使用。
問題2:「獎勵黑客」現(xiàn)象,模型用「無效操作」騙取獎勵。
為了改善工具調(diào)用效果,團隊引入DeepEyes中驗證有效的「工具使用獎勵機制」,只要模型生成代碼,就額外給予獎勵。
初期確實看到了效果,代碼執(zhí)行成功率一度提升。
但在訓練后期,模型開始「投機取巧」,只輸出一個只有無意義注釋的代碼塊,從而來騙取額外的獎勵,陷入「獎勵黑客」(Reward Hacking)的陷阱。
通過探索實驗,團隊發(fā)現(xiàn),現(xiàn)有的多模態(tài)大模型由于自身能力的不足,無法僅通過直接的強化學習來可靠地學習到復雜的工具使用,也說明了冷啟動的重要性。
兩階段訓練
因此,團隊采用了「冷啟動+強化學習」兩階段訓練策略,讓模型從「會用工具」穩(wěn)步升級到「善用工具」。
階段一:冷啟動—打基礎
通過高質(zhì)量數(shù)據(jù)集為模型打基礎」,讓其掌握工具調(diào)用的基本邏輯。團隊精心篩選了四類數(shù)據(jù):
- 感知類數(shù)據(jù):需用圖像裁剪、標記工具解決的問題。
- 推理類數(shù)據(jù):需用代碼計算工具解決的數(shù)學問題。
- 搜索類數(shù)據(jù):需用聯(lián)網(wǎng)工具解決的問題。
- CoT數(shù)據(jù):純文本的推理CoT數(shù)據(jù)。
同時,數(shù)據(jù)還經(jīng)過兩層嚴格過濾:
1、難度過濾,只保留基礎模型無法解決的問題;
2、工具收益過濾,確保工具調(diào)用能顯著提升答案準確率。
階段二:強化學習—精優(yōu)化
在冷啟動基礎上,通過「準確率+格式規(guī)范」雙獎勵機制優(yōu)化工具調(diào)用策略。
與傳統(tǒng)復雜獎勵設計不同,DeepEyesV2僅用兩個簡單獎勵:
1、準確率獎勵,根據(jù)最終答案與標準答案的匹配度打分;
2、格式獎勵,對代碼報錯、搜索關鍵詞無效等格式問題進行懲罰。
RealX-Bench
現(xiàn)有的評測集,往往只能測試模型的單一能力(比如看圖識物、數(shù)學計算),但真實世界的問題需要「多能力協(xié)同」。
為此,團隊構(gòu)建了全新基準RealX-Bench,包含300個真實場景問題,覆蓋日常生活、媒體、體育、知識、游戲五大領域。
團隊從真實場景中收集問題并改寫,使得問題符合真實場景的需求,且很多問題都需要多個能力的結(jié)合才能解決。

準確率遠超開源模型
團隊首先在RealX-Bench上對現(xiàn)有模型和DeepEyesV2,進行了評估。
測試顯示,即使是最先進的通用模型,在RealX-Bench上的準確率也不足50%,而DeepEyesV2憑借工具協(xié)同能力,準確率上表現(xiàn)遠超開源模型,尤其是在需要多能力整合的任務上不表現(xiàn)突出。

此外,團隊還在真實世界理解、數(shù)學推理、搜索任務上進行了評估。
結(jié)果顯示:和現(xiàn)有的模型相比,DeepEyesV2取得了巨大的性能提升,這證明了工具調(diào)用的重要性。

深度剖析:數(shù)據(jù)消融與工具偏好
在這之后,團隊進一步通過多組消融實驗,系統(tǒng)探究了不同數(shù)據(jù)類型對模型工具使用能力的影響。
先來看看冷啟動數(shù)據(jù)。這一部分的核心目標是讓模型掌握「基礎工具使用邏輯」。
團隊將冷啟動數(shù)據(jù)分為三類——感知型、推理型、CoT型,并通過消融實驗驗證各類數(shù)據(jù)的作用。
僅用感知型數(shù)據(jù),模型在真實世界感知任務上準確率有明顯提升,但在數(shù)學推理上準確率幾乎無提升。
這說明感知數(shù)據(jù)能讓模型熟練掌握「圖像裁剪、區(qū)域標記」等視覺工具,但無法遷移到需要代碼計算的推理任務,就像學會用放大鏡看細節(jié),卻不會用計算器算數(shù)值。
僅用推理型數(shù)據(jù),模型在數(shù)學推理任務上準確率有所提升,但在真實世界感知任務上準確率有所下降。
團隊分析發(fā)現(xiàn),推理任務需要「代碼生成+邏輯驗證」的復雜工具使用模式,單一推理數(shù)據(jù)缺乏「視覺感知→工具調(diào)用」的銜接訓練,導致模型丟失了感知能力。
相比之下,當在感知+推理數(shù)據(jù)基礎上加入「CoT數(shù)據(jù)」后,模型在理解和推理任務上都有明顯提升。
這是因為,CoT數(shù)據(jù)強化了模型的推理能力,從而促進了模型的復雜工具調(diào)用能力。
因此最優(yōu)的組合,還是——「感知+推理+CoT」。
三類數(shù)據(jù)結(jié)合后,模型在感知和推理測試集上均實現(xiàn)最優(yōu)表現(xiàn),這證明多樣化且包含復雜推理的冷啟動數(shù)據(jù)才能為模型打下「多工具協(xié)同」的基礎。

此后,團隊進一步探究強化學習數(shù)據(jù)的影響,發(fā)現(xiàn)只有多樣化的數(shù)據(jù),才能有效地提高模型的工具調(diào)用能力。

冷啟動讓模型「知道用什么工具」,而強化學習則讓模型「懂得何時用工具」。
團隊通過對比冷啟動后與RL后的工具使用行為,發(fā)現(xiàn)RL不僅優(yōu)化了工具調(diào)用的「準確性」,更讓模型形成了任務自適應的工具使用模式——
這種「按需調(diào)用」智能,正是DeepEyesV2區(qū)別于傳統(tǒng)模型的核心特征。
團隊分析了模型在不同任務上的工具使用分布,發(fā)現(xiàn)冷啟動后模型已具備初步的「任務-工具匹配」邏輯,而RL進一步強化了這種關聯(lián),并推動「跨工具組合」。
DeepEyesV2對于不同的任務,體現(xiàn)出明顯的工具偏好。
對于真實世界感知任務,模型偏向使用裁剪來獲取細粒度的視覺細節(jié),對于OCR任務,DeepEyesV2還會執(zhí)行標記和數(shù)值計算,在圖表相關的任務中,模型會涉及更多的算數(shù)計算。
然而在數(shù)學推理任務上,數(shù)學計算占主導地位,在搜索相關任務中,模型主要使用搜索工具。
此外,團隊通過比較強化學習前后的行為,團隊觀察到明顯的變化。
在強化學習之后,模型開始傾向于執(zhí)行更多的數(shù)值運算,并在搜索任務中也開始將圖像處理工具與搜索相結(jié)合,表明強化學習有助于模型強化了跨工具的協(xié)同。

冷啟動階段,模型存在過度調(diào)用工具的問題,90%以上的任務都會調(diào)用工具,導致推理效率低下。
而強化學習后,工具調(diào)用率顯著下降,表明模型學會了自適應推理,只有當使用工具更加有利時,才會調(diào)用工具,這有效提高了推理的效率。
此外,團隊還追蹤了強化學習訓練過程中工具調(diào)用次數(shù)、響應長度、獎勵值的動態(tài)變化。
團隊發(fā)現(xiàn),輸出長度在不斷下降,且工具調(diào)用的平均次數(shù)也在逐步下降,但是工具調(diào)用的方差仍然很大。
這說明,模型并不是簡單地收斂到固定的工具調(diào)用次數(shù)(比如,每個問題調(diào)用一次工具)。
相反,模型學會了自適應思考,只在必要的時候有選擇地調(diào)用工具。
在面對復雜問題時,工具調(diào)用次數(shù)仍然很高,說明DeepEyesV2能夠根據(jù)任務難度動態(tài)調(diào)整工具調(diào)用策略,體現(xiàn)出真正的自適應推理能力。
結(jié)語
綜上所述,團隊從訓練、數(shù)據(jù)集設計和評估的角度,探索了如何構(gòu)建能夠主動調(diào)用工具并將其融入推理過程的智能體多模態(tài)模型。
團隊的分析揭示了DeepEyesV2具有任務相關的工具使用行為,而強化學習,則讓模型學會更復雜、具有上下文感知的工具組合。
在感知、推理和搜索基準上進行的大量實驗,則進一步證明了DeepEyesV2強大的推理能力,凸顯了將工具調(diào)用與推理相結(jié)合的優(yōu)勢。
論文地址:https://arxiv.org/pdf/2511.05271
項目主頁:https://visual-agent.github.io/
GitHub:https://github.com/Visual-Agent/DeepEyesV2




































