国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI能看懂圖像卻算不好距離,上交時間-空間智能基準難倒9大頂尖多模態模型

人工智能 新聞
上海交通大學聯合中國地質大學、南洋理工大學、智源研究院以及斯坦福大學的研究團隊推出首個多模態大模型(MLLM)時空智能評測基準STI-Bench(Spatial-Temporal Intelligence Benchmark),向當前最先進的多模態大語言模型發起了關于精確空間時間理解的嚴峻挑戰。

多模態大語言模型(MLLM)在具身智能和自動駕駛“端到端”方案中的應用日益增多,但它們真的準備好理解復雜的物理世界了嗎?

上海交通大學聯合中國地質大學、南洋理工大學、智源研究院以及斯坦福大學的研究團隊推出首個多模態大模型(MLLM)時空智能評測基準STI-Bench(Spatial-Temporal Intelligence Benchmark),向當前最先進的多模態大語言模型發起了關于精確空間時間理解的嚴峻挑戰。

結果顯示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等當前最強的多模態大模型,在需要定量分析真實世界空間關系和動態變化的任務上,表現并不盡人意。

圖片

從語義理解到時空智能

MLLM在視覺語言理解上成就斐然,并被寄望于成為具身智能和自動駕駛的“端到端”解決方案。但這要求模型超越傳統的語義理解,具備精準的時空智能。

試想AI應用場景中的需求:

  • 自動駕駛: 需知曉與前車的精確距離(米)、行人過馬路的速度(米/秒)、安全過彎的車速限制等。
  • 機器人操作:需判斷目標物體的尺寸位置(毫米級)、物體間的空間布局、高效的抓取路徑與速度。

這些任務的核心是定量化的空間-時間理解能力,而這恰恰可能是當前大模型能力的薄弱環節。STI-Bench正是為了系統評估這一關鍵能力而生。

STI-Bench:”時空智能”的全面基準測試

與現有側重語義的評測不同,STI-Bench直接采用真實世界視頻作為輸入,聚焦于精確、量化的時空理解,旨在評估模型在真實應用場景中的潛力。

圖片

基準構建

數據來源包括300多個真實世界視頻,覆蓋三類典型場景:桌面操作(毫米級)、室內環境(厘米級)、戶外場景(分米級)。

評測任務共八項,分屬兩個維度。第一類是靜態空間理解,包括:(1)尺度度量,評估物體大小和物體之間的距離;(2)空間關系,理解物體的相對位置關系;(3)3D視頻定位,預測物體在三維空間中的位置框。第二類是動態時序理解,包括:(4)位移與路徑長度,判斷物體運動距離;(5)速度與加速度,分析物體運動的快慢及其變化趨勢;(6)自我中心方向,估計相機的旋轉角度;(7)軌跡描述,概括物體運動路徑;(8)姿態估計,識別相機或物體在運動過程中的姿態變化。

圖片

此外,該數據集還包含2000多對高質量問答(QA),所有問答基于精確標注計算真值,采用GPT-4o生成多樣化問題與答案,并經過多輪人工審核與校準,確保問答內容準確、語言合理、且與對應場景的精度需求高度匹配。

圖片

實驗結果

研究團隊對當前最先進的多模態模型進行了全面評測,包括最強的專有模型(GPT-4o、Gemini-2.0-Flash、Gemini-2.5-Pro、Claude-3.7-Sonnet)和知名開源模型(Qwen2.5-VL-72B、InternVL2.5-78B、VideoLLaMA 3等)。

圖片

評測結果令人感到擔憂:

整體表現不佳:表現最好的Qwen2.5-VL-72B和Gemini-2.5-Pro也僅不到42%的準確率,僅比隨機猜測(20%)高一些,距離實際應用所需的可靠性還有天壤之別。

定量空間任務成”重災區”:

  • 尺度度量:最高僅34.2%(Gemini-2.5-Pro)
  • 位移路徑長度:最佳成績不到33%
  • 速度與加速度:最高僅36.9%

場景差異明顯:

  • 所有模型在戶外場景表現相對較好(最高約50%)
  • 在對精度要求更高的室內場景和桌面環境中普遍下降(均低于40%)

開源模型嶄露頭角:

Qwen2.5-VL-72B不僅贏過所有開源對手,甚至擊敗了所有專有模型,為開源社區帶來振奮。

圖片

錯誤原因分析

為了揭示大模型在空間-時間理解上失敗的根本原因,研究者對Gemini-2.5-Pro在各個場景下各類任務的思考過程進行了詳細錯誤分析,發現了三大核心瓶頸:

1. 定量空間屬性不準確模型往往難以通過單目視頻準確估計視覺輸入中物體的空間屬性,如尺寸、距離,以及無法從視頻中推斷3D信息,影響了所有需要精確空間測量的任務。

2. 時間動態理解缺陷模型在理解隨時間變化的跨幀信息方面表現不佳,難以準確計算和描述運動特征如位移、速度和軌跡。尤其難以區分物體運動與相機運動,這些問題源于跨幀信息整合困難和物理先驗的缺失。

3. 跨模態整合能力薄弱模型無法有效結合理解文本指令與視覺內容,整合非視覺數據與視覺信息。這導致對時間約束的誤解、給定初始條件等使用不當,以及結構化數據,如坐標、姿態等與視覺元素的正確關聯,影響所有依賴多模態信息的任務。

這些問題直指當前MLLM在精準的空間-時間理解上的能力缺陷,也為未來研究指明了方向。

圖片

總結

STI-Bench的結果清晰地揭示了當前多模態大模型在精確空間-時間理解方面的嚴重不足。只有當MLLM掌握了可靠、精確的空間-時間理解能力,它們才能在具身智能和自動駕駛等領域發揮真正的價值,邁出從虛擬世界到物理世界的關鍵一步。

STI-Bench的發布,為評估和改進MLLM的空間-時間理解能力提供了一個新的基準和“試金石”,有望引導研究人員更深入地探索解決方案。

目前,該項目的論文、代碼、數據等已經開源。

論文鏈接: https://arxiv.org/pdf/2503.23765
論文主頁: https://mira-sjtu.github.io/STI-Bench.io/
Github: https://github.com/MIRA-SJTU/STI-Bench
Huggingface: https://huggingface.co/datasets/MIRA-SJTU/STI-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-13 09:40:00

2023-12-10 15:05:47

AI模型

2025-10-15 14:02:29

AI模型自動駕駛

2025-02-17 13:00:00

ChatGPT大模型AI

2025-02-17 10:09:54

2024-01-22 13:59:00

模型訓練

2017-02-22 15:04:52

2024-09-12 14:19:59

2025-07-04 16:50:07

工具AI模型

2025-01-08 08:21:16

2020-11-16 16:38:30

人工智能AI

2025-05-21 08:47:00

2023-10-19 13:44:00

數據訓練

2018-03-06 10:38:23

云計算大數據人工智能

2025-11-05 08:51:33

2025-10-20 09:02:00

2019-12-27 09:47:05

大數據TomcatWeb

2018-12-24 08:46:52

Kubernetes對象模型

2022-07-04 08:31:42

GitOpsGit基礎設施

2024-07-23 10:34:57

點贊
收藏

51CTO技術棧公眾號

91欧美一区二区| 亚洲在线一区二区| 欧美日韩黄网站| 国产精品亚洲第一| 国产精品免费一区二区三区观看| 亚洲视频三区| 91免费看视频| 免费三级欧美电影| 国产一级一区二区| 亚洲国产精品久久久男人的天堂| 97在线看福利| 日韩欧美亚洲一区| 欧美日韩老妇| 4444欧美成人kkkk| 激情在线视频播放| www.久久.com| 精品性高朝久久久久久久| 中文字幕资源网在线观看| 6080亚洲精品一区二区| 成人免费在线观看| 日韩欧亚中文在线| 欧美女v视频| 日本韩国精品在线| 免费毛片在线| 欧美性xxxxhd| 国产香蕉视频在线看| 日本韩国欧美三级| 日本www在线观看| 欧美成人a视频| 午夜裸体女人视频网站在线观看| 日韩精品在线免费观看| 精品3atv在线视频| 欧美美女操人视频| 久久超级碰碰| 国产精品激情av在线播放| 99精品美女| 国产精品二区三区| 久久久久看片| 成人免费性视频| 久久精品在这里| 色播在线视频| 欧美一区二区三区四区五区 | 色999五月色| 国产麻豆精品视频| 青青视频在线播放| 一级日本不卡的影视| 国产在线电影| 日韩欧美自拍偷拍| 久久久久久久性潮| 国产精品福利在线| 亚洲欧美日韩国产综合精品二区| 成人免费看片视频在线观看| 国产欧美综合在线观看第十页| 波多野结衣在线| 欧美一区二区三区精品| 日韩国产激情| 国产精品一区二区久久国产| 久久久久一区| 天天碰免费视频| 欧美日韩久久不卡| 久久亚洲国产精品尤物| 国产在线不卡精品| 国产精品一区二区久激情瑜伽| 东北一级毛片| 亚洲精品成人久久久| 你懂的在线观看一区二区| 你懂的视频在线一区二区| 91免费在线视频观看| 神马久久精品| 久久亚洲精品网站| 亚洲黑丝一区二区| 一本色道无码道dvd在线观看| 在线观看欧美日本| 亚洲视频一起| 一级特黄录像免费播放全99| av无码久久久久久不卡网站| 久久久精品影视| 肉丝一区二区| 俺去亚洲欧洲欧美日韩| 国产欧美日韩精品一区二区免费 | 日韩电影中文字幕一区| 色综合视频一区二区三区44| 69堂成人精品视频免费| 91污片在线观看| 麻豆网站在线| 国产成人一区二区三区小说| 国产精品亚洲成人| 91se在线| 欧美在线一级va免费观看| 美女久久久精品| 中文字幕在线观看| 中文字幕日韩视频| 亚洲综合二区| 视频免费观看| 中文字幕亚洲第一| 国产美女一区| 午夜成在线www| 欧美大片免费看| 欧美极品一区二区| 久久久久久久综合狠狠综合| 亚洲综合第一| 午夜精品福利一区二区三区av| 国产精品普通话| 日韩av首页| 亚洲欧美日韩一区二区在线| 亚洲一区在线| 一级在线免费视频| 国产午夜精品全部视频播放| 国产精品美女久久久| 最新中文字幕在线视频| 国内外成人免费激情在线视频网站 | 好紧好硬好湿我太爽了| 国产一区二区三区毛片| 奇米综合一区二区三区精品视频| 最近中文视频在线| 欧美怡红院视频一区二区三区| 91在线视频免费91| 都市激情亚洲一区| 一区二区在线观看网站| 欧美一区二区视频在线观看2020| 一本一本久久a久久综合精品| 超碰在线人人| 国产精品扒开腿做爽爽爽视频 | 亚洲mv在线观看| 婷婷亚洲成人| 一区二区三区 欧美| 草民午夜欧美限制a级福利片| 成人免费不卡视频| 久久久成人av毛片免费观看| 亚洲精品国产suv一区88| 亚洲欧美色婷婷| 国产成人在线免费| 国产69精品久久| 欧美日韩你懂得| 欧美一级免费大片| 国产精品丝袜在线| 国产精品婷婷| 国产一区二区不卡视频在线观看| 欧美日本一区| 99热99re6国产在线播放| 国严精品久久久久久亚洲影视| 日韩片之四级片| 蜜桃传媒麻豆第一区在线观看| 91福利国产在线观看菠萝蜜| 3d蒂法精品啪啪一区二区免费| 2021中文字幕一区亚洲| 成人福利av| 女人喷潮完整视频| 欧美成人免费一级人片100| 中文字幕不卡一区| 青青草综合网| 欧美videos极品另类| 亚洲制服欧美久久| 久久天天躁日日躁| 亚洲午夜电影在线观看| 亚洲网站啪啪| 电影一区二区三区| 亚洲欧美自拍另类日韩| 清纯唯美亚洲综合一区| 免费观看日韩av| 电影一区电影二区| 免费黄色特级片| 国产伊人精品在线| 欧美成人精品1314www| 国产成人在线视频网址| 久久九九热re6这里有精品 | 色噜噜狠狠成人网p站| 精品不卡视频| caoporn视频在线观看| 日本一区二区黄色| 国产精品久久久久不卡| 欧美三级电影一区| 成人97人人超碰人人99| 伊人春色精品| 超碰在线资源| 爱福利视频一区二区| 91老司机精品视频| 亚洲第一区第一页| 久久亚洲综合色| 欧美激情综合色综合啪啪| 一区一区三区| 影音先锋另类| 欧美交换配乱吟粗大25p| 国产精品免费久久久| 精品偷拍各种wc美女嘘嘘| 亚洲影视资源网| 国产成人av一区二区| 国产精品久久久久久久| 亚洲wwww| wwwww在线观看免费视频| 欧美日韩在线视频一区二区三区| 亚洲自拍欧美色图| 欧美情侣性视频| 6080午夜不卡| 一区二区在线观看免费视频播放| 激情综合色综合久久综合| 日韩一区二区三区免费播放| 成人勉费视频| av基地在线| 四色永久网址|