国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

多模態大模型不會畫輔助線?最新評估得分:o3僅25.8%,遠低于人類82.3%

人工智能
來自清華大學、騰訊混元、斯坦福大學、卡耐基梅隆大學等頂尖機構的研究團隊聯合發布了RBench-V:一款針對大模型的視覺推理能力的新型基準測試。

多模態時代應如何評估模型的視覺輸出能力?

來自清華大學、騰訊混元、斯坦福大學、卡耐基梅隆大學等頂尖機構的研究團隊聯合發布了RBench-V:一款針對大模型的視覺推理能力的新型基準測試。

過去的評估基準主要集中于評估多模態輸入和純文本推理過程。

而RBench-V系統性評估了當前主流大模型基于“畫圖”的視覺推理能力:

比如在圖中畫出輔助線、描點連線、繪制光線路徑、標注目標區域,等等。

圖片圖片

結果發現,即使是表現最好的模型o3,在RBench-V上的準確率也只有25.8%,遠低于人類的82.3%。

這篇論文在reddit machine learning社區引發了討論,有網友評價:

有趣的現象,視覺推理連小孩都能做到,GPT-4o卻做不到。

圖片圖片

RBench-V:專為模型視覺推理設計

為了評估模型的跨模態推理能力,RBench-V精心設計并篩選了共計803道題目,涵蓋幾何與圖論(數學)、力學與電磁學(物理)、多目標識別(計數)以及路徑規劃與圖形聯想(圖形游戲)等多個領域。

與以往僅要求文字回答的多模態評測不同,RBench-V的每一道題都明確要求模型生成或修改圖像內容來支持推理過程:

簡單地說,就是讓大模型像人類專家一樣,通過繪制輔助線、觀察圖形結構等可視化方式進行思考。

這種對“畫出圖以輔助思考”過程的強調,對模型的視覺理解和圖文協同推理能力提出了全新的要求。

圖片圖片

評測發現,盡管GPT-4o、Gemini、o3等新一代大模型標榜具備“多模態理解與生成”能力,它們在真正需要圖像輸出參與推理的問題上仍顯得力不從心。

主流大模型的評測結果:遠不及人類水平

圖片圖片

在RBench-V的評測中,即便是當前業界最強的閉源模型,也遠遠比不上人類視覺推理能力。

OpenAI發布的旗艦模型o3以25.8%的整體準確率排名首位,Google最新推出的Gemini2.5緊隨其后,得分為20.2%。

但這兩者的表現與人類專家高達82.3%的平均準確率相比,依然很不夠看,說明了現有模型在復雜多模態推理任務中認知能力的嚴重不足。

在開源模型陣營中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準確率普遍徘徊在8%至10%之間,甚至在某些任務維度上接近“隨機作答”的水平——

所謂“把答題卡放地上踩一腳”的水平。

這種懸殊的表現不僅揭示了當前開源生態在多模態輸出生成上的技術瓶頸,也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。

當前,大模型對于視覺推理尚處于早期探索階段。

圖片圖片

此外,通過比較不同模型的得分,可以看到:僅靠擴大模型參數規模、引入圖像輸入通道,或在文字層面堆疊長鏈條思維(Chain-of-Thought,CoT)并不能有效提升模型的視覺推理能力。

當下模型的重大短板:難以借助圖像進行推理

RBench-V的研究揭示了一個關鍵問題:當前的大模型在處理需要空間直覺和圖像操作的幾何類問題時,往往選擇“走捷徑”。

與人類專家傾向于通過直觀的可視化方法進行思考不同,大多數模型更習慣于將圖形問題抽象為坐標系下的代數表達,并采用文本推理路徑完成解題。

這種“用文字繞過圖形”的策略雖然在某些場景下能夠給出正確答案,但實際上掩蓋了其對圖像信息的深層理解缺失,也暴露出它們“表面聰明,實則薄弱”的多模態推理能力。

RBench-V的實驗結果顯示,即便是采用長文本推理路徑或具備“看圖說話”能力的模型,在面對需要圖像輸出的復雜問題時,仍然束手無策。

圖片圖片

RBench-V團隊指出,真正推動大模型邁向“類人智能”的突破口,在于構建能夠在推理過程中主動生成圖像、構圖輔助思考的認知框架。

這其中,多模態思維鏈(Multi-modal Chain-of-Thought,M-CoT)機制、智能體推理(Agent-based Reasoning)范式等新興方法,可能成為人工智能通往未來的重要路徑。

論文、代碼、數據均可在項目主頁找到:https://evalmodels.github.io/rbenchv/


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-09-15 09:12:00

2025-01-08 08:21:16

2025-04-21 08:22:25

2025-06-03 08:22:00

模型評估視頻

2025-05-14 10:09:12

2025-04-23 11:19:31

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-05-28 11:55:28

模型AI評估

2025-05-27 15:23:05

智能體訓練AI

2025-06-12 09:05:00

2025-10-15 14:02:29

AI模型自動駕駛

2025-09-16 09:35:52

2023-12-07 11:48:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2023-02-02 14:07:00

圖形編輯器Canvas

2024-12-30 00:01:00

多模態大模型Python

2025-04-17 06:36:29

點贊
收藏

51CTO技術棧公眾號

精品久久久久久无| 亚洲 激情 在线| 精品动漫3d一区二区三区免费版 | 亚洲女人天堂成人av在线| 大地资源中文在线观看免费版| 国产精品第四页| 欧美成人三级在线播放| 国产精品视频第一区| 一本久道中文无码字幕av| 91色视频在线| 看欧美ab黄色大片视频免费| 中文字幕二三区不卡| 国内外成人免费在线视频| 国产精品国产三级国产专播品爱网 | 欧美视频中文字幕在线| 伊人资源视频在线| 亚洲 欧美综合在线网络| 最近中文字幕在线| 欧美亚洲日本国产| 黄色羞羞视频在线观看| 亚洲丝袜在线视频| 日韩视频1区| 国产精品免费观看在线| 黄色日韩在线| 日本在线播放一区| av一区二区三区| 成人伊人222| 欧美日韩国产一区在线| 麻豆传媒免费在线观看| 亚洲激情视频在线观看| 欧美天堂一区二区| 91精品国产91久久久久福利| 日韩成人a**站| 精品一区二区不卡| 国产高清无密码一区二区三区| 蜜臀久久99精品久久久酒店新书 | 精品偷拍各种wc美女嘘嘘| 欧美一级做一级爱a做片性| 7m精品福利视频导航| 女主播福利一区| 热这里只有精品| 亚洲图片欧美激情| 最新国产在线观看| 日韩一二三在线视频播| 精品视频日韩| 日韩欧美亚洲日产国| 国产欧美精品一区二区色综合朱莉| 屁屁影院在线观看| 日韩成人av网址| 久草在线综合| 免费av一区二区三区| 成人激情小说网站| 污污软件在线观看| 日韩精品免费视频| 国产精品日韩精品中文字幕| 日本在线视频不卡| 欧美国产一区视频在线观看| 日本中文字幕在线2020| 久久精品视频在线观看| 中文字幕亚洲综合久久五月天色无吗'' | 手机看片福利永久国产日韩| 久久日韩粉嫩一区二区三区| 久热av在线| 日韩视频精品在线| 中文字幕一区二区三区在线视频 | 毛片av在线| 久久久久久久一区二区| 国产精品久久久久久模特| 久热免费在线观看| 欧美综合视频在线观看| 综合激情网...| 日韩福利在线| 亚洲一二三四区不卡| 中文字幕日本一区二区| 国产一区二区三区四区五区加勒比| 久久久久久久久99精品| 欧美性猛片xxxxx免费中国| 国产成人精品久久久| 国产成人免费视频精品含羞草妖精| 欧美3p视频在线观看| 97精品伊人久久久大香线蕉| 国产精品一区二区在线看| 成人高清免费在线播放| 97香蕉久久超级碰碰高清版| 狠狠色综合播放一区二区| av网站在线免费播放| 国产成人一区二区在线| 91免费看片在线观看| 国产理论在线| 久久精品日韩精品| 亚洲影视资源网| 中文成人在线| 黄色一级片网址| 欧美高清hd18日本| 偷偷www综合久久久久久久| 中文字幕第38页| 色狠狠久久aa北条麻妃| 蜜臀av国产精品久久久久| 午夜小视频在线| 国产精品免费电影| 亚洲欧美一区二区三区国产精品 | 国产999视频| 久久综合狠狠综合| 老司机2019福利精品视频导航| 国产精品一区二区a| 亚洲一二三四区不卡| 精品五月天堂| 免费黄色福利视频| 国产亚洲精品日韩| 国产自产v一区二区三区c| 羞羞电影在线观看www| 国产伦精品一区二区三区在线| 亚洲国产精品视频| 亚洲裸色大胆大尺寸艺术写真| 四虎永久在线精品无码视频| 少妇av一区二区三区| 国产精品 日产精品 欧美精品| missav|免费高清av在线看| 欧美日韩在线播放一区二区| 欧美日韩在线三级| 亚洲午夜精品久久久久久app| 小草av在线播放| 91精品久久久久久久久久入口| 亚洲高清免费一级二级三级| 午夜精品毛片| 欧美性天天影视| 欧洲一区二区在线观看| 精品国产乱码久久| 久久精品国产秦先生| 中文字幕21页在线看| 中国女人做爰视频| 国产性猛交xxxx免费看久久| 成人午夜在线免费| 日韩精品视频中文字幕| 蜜桃免费在线视频| 欧美怡春院一区二区三区| 亚洲激情自拍视频| 久久中文字幕av| 91最新在线| 日本在线观看一区二区| 亚洲精品国产精品久久清纯直播| 国产一区欧美日韩| 57pao成人永久免费| 四虎永久在线高清国产精品| 国产精品视频一区二区三区四| 色女孩综合影院| 日本欧美久久久久免费播放网| 9999热视频在线观看| 国产精品视频一二三四区| 欧美精品在线看| 亚洲一区二区在线观看视频| 黄色成人av网站| 免费在线小视频| 亚洲天堂av线| 亚洲最大福利视频| 精品日韩在线观看| 97se亚洲国产综合自在线| 精品一区亚洲| 好操啊在线观看免费视频| 精品一区二区三区无码视频| 国内精品视频一区| 色婷婷av一区二区三区gif| 久久99精品久久久久久国产越南| 91精品视频一区二区| 中文字幕第5页| 日韩欧美电影一区二区| 操日韩av在线电影| 午夜免费久久看| 麻豆国产精品777777在线| 风间由美中文字幕在线看视频国产欧美| 中日韩一区二区三区| 亚洲高清视频一区| 午夜剧场成人观在线视频免费观看| 欧美日韩免费在线观看| 蜜桃久久av一区| 岳的好大精品一区二区三区| 在线看三级电影| 成人免费在线观看视频网站| 精品在线不卡| 欧美xxxx做受欧美| 欧美三区在线视频| 久久影院午夜论| 亚洲黄页一区| 欧美专区一区| 在线看的av网站| 国产福利视频在线播放| 国产精品福利视频| 久久国产精品电影| 欧美男男青年gay1069videost| 久久久亚洲综合| 米奇777在线欧美播放| 视频一区视频二区欧美| 男人天堂手机在线| 91黑丝在线| 天堂av免费看| 97av自拍| 97久久精品视频| 亚洲欧美激情四射在线日| 色综合色综合色综合色综合色综合| 99精品久久99久久久久|