国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

李飛飛:通過「空間智能」重構世界

發布于 2025-1-16 12:38
瀏覽
0收藏

李飛飛:通過「空間智能」重構世界-AI.x社區

在人工智能的持續演進中,多模態大語言模型(MLLMs)已成為核心研究領域之一,其在整合語言和視覺信息方面的潛力備受關注。李飛飛、謝賽寧團隊的最新研究成果猶如一顆璀璨的新星,照亮了 MLLM 在空間智能領域的探索之路,引發了學界和業界的廣泛關注。本文將深入剖析該團隊的研究,詳細闡述 MLLM 在空間智能方面的突破與挑戰,一同探索 MLLMs 在視覺空間智能方面的進展與難題。


李飛飛:通過「空間智能」重構世界-AI.x社區


1.引言視覺空間智能

在人類的日常生活中,視覺空間智能起著極為關鍵的作用。無論是在家中規劃家具擺放,還是在工作場所導航尋路,我們都在不斷運用這一能力。人類能夠憑借視覺感知和記憶,快速構建空間布局,并據此做出準確的判斷和決策。

對于人工智能而言,尤其是多模態大語言模型,視覺空間智能的發展卻面臨諸多挑戰。盡管語言模型在文本處理上取得了顯著成果,但在理解和處理視覺空間信息方面仍處于探索階段。這一能力的缺失限制了 MLLMs 在許多實際應用中的表現,如機器人控制、自動駕駛和增強現實等領域。


李飛飛:通過「空間智能」重構世界-AI.x社區


為了填補這一研究空白,本文引入了一個全新的基準測試——VSI-Bench。它基于大量真實的室內場景視頻,構建了超過 5000 個問題-答案對,旨在全面評估 MLLMs 的視覺空間智能。這一基準測試的出現,為 MLLMs 在該領域的研究提供了重要的工具和標準,開啟了深入探究的大門。


2.視覺空間智能內涵、范疇與關鍵要素解析

定義與范圍的精準界定

本文聚焦于視覺空間智能在現實世界環境中的應用,區別于傳統的抽象空間認知測試。在實際場景中,如家庭、辦公室和工廠等,視覺空間智能表現為對空間關系的準確感知和有效操作。例如,在家庭場景中,能夠判斷家具之間的合理間距;在辦公室里,能快速找到所需物品的位置;在工廠中,可規劃高效的物料運輸路徑。這種基于現實場景的定義,使得研究更具實際意義和應用價值。比如你要去宜家買家具,當你看到一個心儀的衣柜時你會在腦海里想一下你的臥室,放到哪里更合適,這時候我們會在腦海里重構一下自己的臥室空間,回憶一下房間里的物體、他們的位置以及大概的大小,判斷下新買的衣柜應該放到哪里。

能力分類的深度剖析

李飛飛:通過「空間智能」重構世界-AI.x社區


視覺空間智能涵蓋多個關鍵能力領域(見圖 2)。視覺感知是基礎,要求模型能夠從視頻中準確識別各類物體,這涉及到對物體形狀、顏色、紋理等特征的提取和識別。例如,在復雜的室內視頻中,模型需分辨出桌椅、電器等不同物體。

語言智能則負責理解與空間相關的語言描述,并將其與視覺信息相結合。當遇到“房間里有幾張椅子”這樣的問題時,模型要理解問題含義,并在視頻中找到對應的答案。

時間處理能力使模型能夠追蹤物體在視頻中的時間動態變化,構建其運動軌跡。比如在監控視頻中,模型可記錄人員或物體的移動路徑。

空間推理能力是核心,包括關系推理和自我中心-客體中心轉換。關系推理要求模型依據距離和方向判斷物體間的空間關系,如確定書架與窗戶的相對位置。自我中心-客體中心轉換則是在以自身視角和以環境為中心的視角之間切換,這類似于人類在空間中定位自己和周圍物體的過程。

3.VSI-Bench創新基準測試的構建與解析

概述:架構與任務體系

VSI-Bench 由 288 個真實視頻生成的 5000 多個問題-答案對組成,數據來源于 ScanNet、ScanNet++ 和 ARKitScenes 等權威數據集,涵蓋多種環境和地理區域。其任務分為配置、測量估計和時空三大類共八個任務(見圖 3)。

配置任務中的物體計數,考驗模型對視頻中特定物體數量的準確統計能力;相對距離任務要求模型判斷物體間的遠近關系;相對方向任務促使模型確定物體的方位;路線規劃任務模擬機器人導航,需要模型規劃出從起點到終點的合理路徑。

測量估計任務中,物體大小估計要求模型根據視頻判斷物體的尺寸;房間大小估計需模型估算出整個房間的面積;絕對距離估計則是精確計算兩個物體之間的實際距離。

時空任務的外觀順序,要求模型記住物體在視頻中首次出現的先后順序,測試其對空間信息的記憶能力。

基準測試

數據收集與統一的精細操作:從不同數據集中選取樣本后,對視頻進行標準化處理。ScanNet 視頻轉換為 24 FPS,ScanNet++和 ARKitScenes 視頻子采樣到 30 FPS,并統一分辨率為 640 × 480 像素。同時,對不同數據集的注釋結構進行統一,提取包含數據集、視頻路徑、房間大小等關鍵信息的元信息,并精心篩選和重映射物體類別,確保數據的一致性和有效性。


李飛飛:通過「空間智能」重構世界-AI.x社區


問題-答案生成的科學方法:除路線規劃任務采用人工標注外,其他任務利用元信息和問題模板自動生成問題-答案對。例如物體計數的問題模板為“ How many {object} are in this room?  ”,通過替換 {object} 生成具體問題。在數值答案任務中,合理生成選擇題選項,并對每個場景和任務的問題數量進行子采樣,保證數據集的平衡性。


李飛飛:通過「空間智能」重構世界-AI.x社區


人工循環質量審查的嚴格把控:在數據集收集和問題-答案對生成階段,均實施人工審查。收集時過濾掉 3D 網格重建不完全的場景,生成后手動驗證元信息正確性,尤其關注物體數量。在問題-答案對審查中,人工評估人員標記錯誤或模糊的問題,研究團隊據此追溯錯誤源并采取糾正措施,如刪除問題樣本、修改元信息或問題模板等,經過多次迭代確保基準測試質量。

4. VSI-Bench 上的評估模型性能的全面審視

評估設置

基準模型的廣泛涵蓋:全面評估了 15 個涵蓋不同家族、參數規模和訓練方法的視頻支持 MLLMs,包括專有模型如 Gemini1.5 和 GPT-4o,以及開源模型如 InternVL2、ViLA 等,確保評估的全面性和代表性。

指標設計的合理考量:根據答案類型采用不同評估指標。選擇題答案(MCA)任務使用準確率(ACC),基于精確匹配(可含模糊匹配)計算;數值答案(NA)任務采用平均相對準確率(MRA),通過考慮相對誤差率來衡量模型預測的準確性,以適應不同類型問題的評估需求。

基線設置的有效參照:設置Chance Level (Random) 作為 MCA 任務隨機選擇答案的準確率基線,Chance Level (Frequency) 為選擇每個任務最頻繁答案的準確率基線,為模型性能評估提供清晰的參照標準。


李飛飛:通過「空間智能」重構世界-AI.x社區

結果分析

人類水平與模型的對比洞察:人類評估者在基準測試中平均準確率達 79%,在配置和時空任務上表現卓越,準確率在 94% - 100%之間,體現了人類在視覺空間智能方面的優勢。在測量任務中,人類與最佳 MLLM 的差距相對較小,表明 MLLMs 在定量估計方面有一定潛力,但仍需提升。

專有與開源模型的差異解讀:專有模型 Gemini1.5 Pro 表現突出,雖與人類有差距,但遠超基線水平,在絕對距離和房間大小估計等任務中接近人類表現,得益于其強大的研發資源和架構。開源模型中,部分頂級模型如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 有競爭力,僅落后 Gemini1.5 Pro 4%-5%,但多數開源模型(7/12)低于基線水平,反映出開源模型在視覺空間智能方面的局限性。

視覺信息影響的顯著發現:對比視覺啟用、禁用和基線水平結果發現,視頻對任務至關重要,視覺啟用模型性能優于禁用模型,而禁用模型低于基線水平。在絕對距離估計、路線規劃和相對方向等任務中,MLLMs 即使有視覺信息也難以超越基線,凸顯這些任務的難度。


李飛飛:通過「空間智能」重構世界-AI.x社區


5.MLLMs 的語言空間推理機制探究與瓶頸剖析

通過自我解釋揭示推理過程

李飛飛:通過「空間智能」重構世界-AI.x社區

案例研究的深刻啟示:以 Gemini1.5 Pro 為例,在成功案例中,模型展示出較強的視頻理解和語言推理能力,能準確描述視頻信息并構建合理推理步驟,如在相對方向任務中正確判斷物體方位。但在錯誤案例中,常出現自我中心 - 客體中心轉換和關系推理錯誤,表明模型在復雜空間推理上存在不足。


李飛飛:通過「空間智能」重構世界-AI.x社區



錯誤類型的詳細分析:對 Gemini1.5 Pro 在 VSI - Bench(tiny)上的錯誤分類分析發現,約 71%的錯誤源于空間推理能力缺陷,其他包括視覺感知、語言智能和自我中心-客體中心轉換錯誤,但空間推理錯誤占主導,成為 MLLM 性能提升的關鍵瓶頸。

CoT 方法

李飛飛:通過「空間智能」重構世界-AI.x社區

研究三種語言提示技術【零樣本思維鏈(CoT)、自一致性 CoT 和思維樹(ToT)】發現,它們在 VSI-Bench 上平均導致性能下降。雖在部分任務有輕微提升,但在房間大小和物體大小等任務中大幅下降,說明在視覺空間推理任務中,單純依靠語言提示技術提升模型性能不可行,與傳統語言推理任務有顯著差異。

李飛飛:通過「空間智能」重構世界-AI.x社區


6.創新方法與效果評估MLLMs 的視覺空間記憶與認知地圖

通過認知地圖探索空間記憶

李飛飛:通過「空間智能」重構世界-AI.x社區


認知地圖生成的獨特方式:提示 Gemini1.5 Pro 根據視頻在 10×10 網格中預測物體中心位置生成認知地圖(見圖 10),模擬人類構建空間認知的過程,以探究模型如何在內部表示空間信息。

李飛飛:通過「空間智能」重構世界-AI.x社區


局部空間意識的精準評估:通過計算認知地圖中物體間歐幾里得距離并與真實地圖比較,發現 MLLMs 定位相鄰物體準確率達 64%,表明有一定局部空間意識。但隨著物體距離增加準確率下降,說明模型構建全局空間模型困難,多形成局部世界模型(見圖 11)。

利用認知地圖提升距離推理能力的效果

實驗表明,讓 Gemini1.5 Pro 先生成認知地圖再回答相對距離問題,準確率提高 10%(見表 3)。這顯示認知地圖能輔助模型進行更準確的距離推理,為提升 MLLMs 視覺空間智能提供了新途徑。


李飛飛:通過「空間智能」重構世界-AI.x社區


7.相關工作

具有視覺空間意識的 MLLMs

近年來,MLLMs 借助 LLMs 的語言和推理能力及視覺編碼器的特征提取能力,在視覺理解上取得進展。但在應用于現實世界視覺空間任務時仍面臨諸多挑戰,如準確感知和理解空間信息。本文與以往關注 2D 圖像或純語言的研究不同,采用真實視頻評估模型,更貼合實際應用場景。

MLLMs 在視頻上的基準測試

隨著 MLLMs 在靜態圖像任務的出色表現,其視頻理解能力評估受關注。已有 Video-MME、EgoSchema 和 OpenEQA 等基準測試,但多側重內容級理解,缺乏 3D 空間考慮。本文的 VSI-Bench 填補了這一空白,為研究 MLLMs 視覺空間能力提供了重要工具。

8.討論與未來工作

通過 VSI-Bench 對 MLLMs 的研究發現,其在視覺空間智能方面有優勢也有瓶頸。雖在感知、時間處理和語言能力上有表現,但空間推理能力尤其是自我中心-客體中心轉換和關系推理能力亟待提高。

當前語言提示方法對空間推理效果不佳,但認知地圖為提升空間距離推理能力帶來希望。未來可從特定任務微調、開發空間推理自監督學習目標和設計視覺空間提示技術等方向努力,推動 MLLMs 在視覺空間領域取得更大突破,為人工智能發展注入新動力。

論文地址:??https://arxiv.org/pdf/2412.14171??

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

代碼地址:

??https://github.com/vision-x-nyu/thinking-in-space??

原文鏈接:

??https://www.yuque.com/u21774036/qnmlr1/ecqfh7gtbquvvwk5?#《李飛飛:通過「空間智能」重構世界》??

本文轉載自??AIGC前沿技術追蹤??,作者: 愛讀論文的吳彥祖 ????

收藏
回復
舉報
回復
相關推薦
在线激情免费视频| 欧美岛国在线观看| 亚洲成avwww人| 中文字幕最新精品| 久久精品人人做人人爽电影| 不卡视频一区二区三区| 高清日韩欧美| 色婷婷综合成人av| 精品视频免费看| 丝袜制服一区二区三区| 亚洲精品国产成人| 韩国中文字幕2020精品| 一区二区三区久久久| 日本免费看黄色| 精品久久久久一区| 亚洲素人在线| 亚洲精品欧美日韩| 久久国际精品| 成人黄色一区二区| 91视频一区| 99re视频在线| 一本久道久久综合婷婷鲸鱼| 九九九九九精品| 亚洲中字在线| 一区二区三区精品国产| 国产一区激情在线| 国产情侣av自拍| 亚洲综合一区二区三区| 青青草免费在线视频| 777午夜精品视频在线播放| www免费在线观看| 亚洲片在线资源| 国产95亚洲| 国产精品久久久久久久久久尿 | 久久1电影院| 欧洲精品毛片网站| 欧美精品1区| 日韩精品一二三区| 亚洲国产精品综合| 91色porny蝌蚪| 在线播放色视频| 欧美精品一区二区三区蜜桃| 精品国产亚洲一区二区在线观看| 国产精品成人一区二区| 天堂久久一区二区三区| 男人舔女人下面高潮视频| 污片在线观看一区二区| gogo久久| 国产成人jvid在线播放| 最新成人av网站| 97国产精东麻豆人妻电影 | 欧美日韩精品欧美日韩精品| а√天堂8资源中文在线| 久久久久久成人| 亚洲蜜桃视频| 91视频 - 88av| 亚洲va韩国va欧美va精品| 成年人黄视频网站| 激情五月综合色婷婷一区二区| 天天综合精品| 50度灰在线观看| 亚洲一区在线观看视频| 国产嫩草在线视频| 国产不卡av在线| 国产一区美女在线| 日本午夜在线视频| 久久成人av网站| 亚洲一区二区成人| 四虎国产精品成人免费4hu| 欧美mv日韩mv国产网站| 蜜桃一区二区三区| 久久久久久久香蕉| 精品日韩中文字幕| 国产精品久久久久久久久久久久久久久| 国产精品久久久久久久av大片| 狠狠久久亚洲欧美| 国产日本在线视频| 91高清视频免费观看| 亚洲久久一区| 免费av高清| 久久九九国产精品怡红院 | 91一区二区三区在线| 欧美精品成人在线| 久久精品国产秦先生| 最近中文字幕mv免费高清在线| 色一区av在线| 日韩在线观看一区二区| 一级毛片在线观| 久久乐国产精品| 国产福利一区二区三区视频在线 | 风间由美一区二区三区| 久久精品人人做人人综合| av小次郎在线| 成人性教育视频在线观看| 国产精品色眯眯| 美女福利一区二区| 色综合电影网| 欧美日韩视频在线第一区| 女一区二区三区| 欧美变态另类刺激| 亚洲精品视频网上网址在线观看| 在线亚洲成人| 国产高清视频在线观看| 日韩美女写真福利在线观看| 99麻豆久久久国产精品免费| av中文字幕电影在线看| 国产一区免费视频| 五月婷婷综合网| 啪啪亚洲精品| 男人艹女人网站| 欧美激情亚洲自拍| 久久这里都是精品| www.成人在线.com| 国产成a人亚洲精v品在线观看| 337p日本欧洲亚洲大胆色噜噜| 夜夜嗨一区二区| 日本高清视频在线观看| 99精品国产高清在线观看| 欧美日韩美女视频| 999久久久免费精品国产| 黄色高清在线观看| 国产精品白嫩美女在线观看| 夜夜嗨av一区二区三区网页| 久久99国产精品视频| 国产黄色影视| 国产精品国内视频| 亚洲一区中文日韩| 欧美gvvideo网站| 深夜福利视频在线观看| 51成人做爰www免费看网站| 欧美日韩国产影院| 欧美精品九九| 欧美videos极品另类| 精品国产乱码久久久久久108| 在线观看中文字幕不卡| 国产视频一区三区| 精灵使的剑舞无删减版在线观看| 一区二区在线不卡| 亚洲视频免费一区| 久久综合久久综合亚洲| 精品女人视频| 天堂在线中文字幕| 韩国成人一区| 日韩av综合网站| 国产精品毛片视频| 国产激情视频网址| 51国偷自产一区二区三区的来源| 在线观看中文字幕不卡| 日本伊人色综合网| 久久婷婷五月综合色丁香| 国产精品免费入口| 啪一啪鲁一鲁2019在线视频| 大伊人狠狠躁夜夜躁av一区| 国产视频欧美| jvid一区二区三区| 羞羞的视频网站| 国产精品免费区二区三区观看| 日韩美女主播在线视频一区二区三区| 国产成人在线电影| 蜜桃一区二区三区| 黄色网在线免费看| 日韩av高清在线看片| 国产成人精品久久| 欧美一级日韩免费不卡| 91网站在线播放| 久久伦理在线| 欧美激情网站| 成年人黄视频网站| 日本一区二区精品视频| 欧美精品一区二区免费| 色综合一个色综合亚洲| 韩国三级在线一区| 国产欧美一区| 欧美极品videos大乳护士| 午夜网站在线观看| 欧洲精品在线一区| 欧美老少配视频| 欧美性xxxxxxxx| aaa欧美色吧激情视频| 久久伦理在线| 精品日本视频| 最新天堂资源在线| 日韩国产小视频| 91亚洲人电影| 亚洲欧美www| 图片区小说区区亚洲影院| 国产99久久久久久免费看农村| 久久国产小视频| 日韩欧美一区二区三区免费观看| 性欧美孕妇孕交| 91猫先生在线| 日韩av电影免费观看| 68精品久久久久久欧美 | 成人性视频免费网站| 日韩精品免费| 欧美无毛视频| 美女欧美视频在线观看免费| 国产亚洲精品网站| 欧美在线视频二区| 国产主播在线一区|