国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AAAI 2026 | 跨視頻推理基準 CrossVid:給多模態大模型出一道“綜合題”

人工智能
小紅書技術團隊推出全面評估 MLLMs 跨視頻推理能力的基準測試 CrossVid,目前測試代碼與數據已完全開源。

Qwen3-VL、Gemini-3 等多模態大語言模型(MLLMs)已在單視頻理解領域展現出色能力,精準識別內容的同時生成精彩解說。但 AI 是否具備人類般的 “跨視頻” 思考能力?例如分辨不同烹飪視頻的食材處理方法、串聯多個電影片段的劇情邏輯、追蹤多視角錄像中同一物體運動 —— 這類能力被稱為跨視頻推理。

為填補該領域評估空白,小紅書技術團隊推出全面評估 MLLMs 跨視頻推理能力的基準測試 CrossVid,目前測試代碼與數據已完全開源。

論文地址:

https://arxiv.org/abs/2511.12263

論文標題:

CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models

開源代碼:

https://github.com/chuntianli666/CrossVid

01、背景:從“看懂一個”到“理解一組”

在目前的視頻理解研究中,絕大多數基準測試都局限于單視頻分析。即便是少數涉及多視角的測試,也往往局限于同一場景的不同角度。

然而,現實世界中的視頻理解需求遠比這復雜。比如,在小紅書這樣的平臺上,用戶往往需要同時處理多個視頻信息,即跨視頻推理(Cross-Video Reasoning, CVR):

  • 對比分析: 比較不同博主的探店視頻,找出共同推薦的菜品。
  • 時序理解: 觀看一段長故事被切分成的多個片段,自行腦補中間的劇情。
  • 信息聚合: 綜合多個教程視頻,總結出一個完整的操作步驟。

現有的評測體系無法有效衡量模型在這些復雜場景下的表現。為此,CrossVid 應運而生,旨在推動視頻理解從“單查詢、單視頻”“單查詢、多視頻”的范式轉變。

02、CrossVid是什么?首個方位CVR基準

CrossVid 是專門為評估多模態大模型在跨視頻語境下時空推理能力而設計的大型測評基準。

CrossVid 的核心亮點包括:

  • 數據規模宏大: 包含 5,331 個精選視頻和 9,015 個高質量問答對。
  • 任務層級豐富: 設立了 4 個高層維度(對比分析、時序理解、多視角推理、自由問答)和 10 項具體任務(如行為理解、敘事理解、烹飪對比、多視角計數等)。
  • 覆蓋場景廣泛: 視頻平均時長覆蓋從短視頻到長視頻,涵蓋 32 種題材,高度還原真實世界的復雜性。
  • 嚴格的質量把控: 采用“半自動化標注流水線”,結合 Qwen2.5-VL 和 DeepSeek-R1 生成初稿,再經過 10 位專家標注員的多輪人工清洗與校驗,確保數據的高質量。

03、數據標注:高質量數據如何產生?

一個優秀的 Benchmark,數據質量是根本。然而,跨視頻推理涉及到復雜的邏輯比對,單純依賴人工編寫效率太低,完全依賴 AI 生成又容易產生幻覺或邏輯漏洞。

這套流程包含三大核心步驟:

1. AI 生成描述,打好基礎

我們首先利用 Qwen2.5-VL-72B 對海量視頻幀進行密集描述(Frame Captioning),結合原始元數據生成詳盡的視覺上下文。隨后,引入具備強大推理能力的 DeepSeek-R1,通過精心設計的 Prompt,讓它基于這些描述生成具有挑戰性的跨視頻問答對。

Tips:為了減少模型“幻覺”,我們在 Prompt 中強制 DeepSeek-R1 輸出正確答案的推理過程,確保從問題到答案的過程是基于視頻內容的正確邏輯。

2. 十位專家精修,去偽存真

AI 生成的數據只是初稿。我們組建了一支由 10 位專業標注員 組成的專家團隊,對數據進行了三輪清洗:

  • 粗篩(Filtration): 剔除那些“只看一個視頻就能回答”的簡單問題,確保所有題目都必須結合多個視頻才能解出。
  • 精修(Refinement): 消除歧義,優化選項。
  • 防作弊設計(Anti-Shortcut): 在時序排序任務中,為了防止模型通過鏡頭切換的邊緣“猜”出順序,標注員對視頻片段進行了時序重對齊(Temporal Realignment),強制模型必須理解視頻內容的因果關系,而不是靠低級視覺特征作弊。

3. 純手工打造,質量過關

對于對空間感知要求極高的多視角推理(Multi-view Reasoning)任務(如無人機視角下的車輛計數與定位),由于物體過小且關系復雜,目前的 AI 難以勝任。因此,這部分數據采用了全人工標注。標注員利用定制的標注工具,在同步播放的雙視角視頻中手動標記物體坐標和關系,確保了數據的絕對精準。

04、實驗結果:AI與人類差距依然較大

為了測試當前 AI 的水平,我們在 CrossVid 上對 22 個主流 MLLMs 進行了廣泛評測,包括閉源模型(如 GPT-4.1, Gemini-2.5-Pro)和開源模型(如 Qwen2.5-VL, InternVL3 等)。

評測結果令人深思:

  1. 挑戰性極高: 即便是在 CrossVid 上表現最好的模型 Gemini-2.5-Pro,其平均準確率也僅為 50.4%。相比之下,人類的平均準確率高達 89.2%。這表明 CVR 對現有模型來說仍是一個巨大的挑戰。
  2. 時空推理短板明顯: 在“多視角推理”和“時序理解”任務上,模型與人類的差距尤為巨大。例如在動作對齊任務中,人類準確率為 85.2%,而最強模型僅為 13.4%。
  3. 閉源模型暫時領先: 閉源模型總體優于開源模型,且具備“思考(Thinking)”機制的模型(如集成思維鏈能力的模型)表現出更強的推理潛力。

05、深度觀察:大模型為什么會“翻車”

通過對模型錯誤的深入分析,CrossVid 團隊揭示了當前 MLLMs 在處理多視頻任務時的主要瓶頸:

  • 關鍵幀丟失(Key frame loss): 由于同時輸入多個視頻,模型被迫壓縮每個視頻的幀數,導致關鍵細節(如烹飪中是否裹了面粉)丟失。
  • 視頻理解錯誤(Video understanding error):模型對某個單獨的視頻理解出現偏差,導致在進行跨視頻信息整合時出現錯誤。
  • 跨視頻對比失效(Cross-video comparison error): 模型可能看懂了單個視頻,但在需要將多段視頻進行邏輯對比時(例如比較兩部電影中“擁抱”含義的不同),往往會產生幻覺或邏輯斷裂。
  • 無法整合分布式證據: 真正的跨視頻推理需要將分散在不同視頻中的線索拼在一起,而現有模型更傾向于獨立處理每個視頻。

06、總結與展望

CrossVid 的提出,不僅揭示了當前多模態大模型在復雜推理任務上的局限性,也為未來的研究指明了方向。

我們認為,提升 MLLMs 的跨視頻推理能力,是實現更智能的視頻搜索、更精準的推薦系統以及更強大的視頻創作助手的關鍵一步。

未來,我們期待看到:

  • 更高效的長上下文處理機制,以容納更多視頻幀。
  • 針對 CVR 優化的模型架構,增強多視頻間的信息交互。
  • 利用 CrossVid 數據集,訓練出更懂“視頻群”的智能模型。

CrossVid 現已全面開源,歡迎全球開發者與研究者共同挑戰!

作者簡介

慈霖

小紅書多模態算法工程師。曾在 ICCV、ECCV、IJCV、ACL 等會刊發表多篇論文。主要研究方向:多模態大模型、視頻理解等。

塔斯

小紅書多模態算法工程師。曾在 TIP、TCSVT、ICIP 等會刊發表多篇論文。主要研究方向:多模態大模型、內容理解等。

嘉音

小紅書審核基礎算法組負責人,碩士畢業于清華大學計算機系,負責審核相關業務的大模型算法研究與應用。曾在 ICLR、 CVPR、ICCV、ACM MM、 KDD 等機器學習、計算機視覺、數據挖掘領域頂會發表多篇論文。主要研究方向:多模態大模型、多模態檢索/理解等。

萊戈

小紅書 TnS 負責人。曾在 CVPR、ICCV、ICLR、ECCV、IJCV 等會刊發表多篇論文,曾獲 YouTube-VOS 視頻分割競賽 Top-3 排名,曾獲天池視覺分割大獎賽復賽第 1 名。主要研究方向:目標跟蹤、視頻分割、多模態分類/檢索、多模態大模型等。

責任編輯:龐桂玉 來源: 小紅書技術REDtech
相關推薦

2025-05-21 08:47:00

2024-06-17 18:06:17

2024-06-07 06:35:08

2025-01-08 08:21:16

2025-11-05 08:51:33

2024-11-13 09:39:13

2023-12-28 17:31:44

PixelLM性能模型

2025-06-10 03:30:00

2025-06-09 08:50:00

2025-10-15 14:02:29

AI模型自動駕駛

2025-06-27 08:40:00

模型推理AI

2023-12-17 13:05:01

模型訓練

2023-06-06 14:09:32

模型開源

2024-10-30 15:00:00

AI視頻模型

2025-02-27 10:08:19

2025-07-04 16:50:07

工具AI模型

2025-04-28 14:04:03

Gemini模型AI

2025-09-16 09:35:52

2014-12-08 10:00:31

點贊
收藏

51CTO技術棧公眾號

福利小视频在线| av女在线播放| 国产91精品露脸国语对白| 91久久精品国产91久久性色| 人人玩人人添人人澡欧美| 欧美精品一区二区三| 成人不用播放器| 午夜国产精品一区| 天天看片激情网站| 自拍偷自拍亚洲精品播放| 亚洲 中文字幕 日韩 无码| 高清日韩电视剧大全免费| 九九久久九九久久| 麻豆精品久久精品色综合| 四虎永久国产精品| 美女网站久久| 亚洲人成影视在线观看| 日韩va欧美va亚洲va久久| 蜜桃999成人看片在线观看| 在线看片日韩| 麻豆久久久9性大片| 亚洲综合99| 美乳视频一区二区| 免费人成精品欧美精品| 中文字幕中文字幕在线中一区高清| 日韩在线a电影| 中国成人在线视频| 懂色av噜噜一区二区三区av| 99蜜桃臀久久久欧美精品网站| 久久久亚洲欧洲日产国码αv| 人人干人人视频| 亚洲精品免费视频| 国产视频网站在线| 在线播放日韩导航| 麻豆av在线免费看| 亚洲精品一区二区三区蜜桃下载| 国产社区精品视频| 日韩一区二区三区在线播放| 亚洲高清在线一区| 国产精品亚洲美女av网站| 欧美成人嫩草网站| 欧洲亚洲一区二区| 不卡一区在线观看| 成人午夜剧场免费观看完整版| 亚洲一区二区三区影院| 日本视频在线免费观看| 国产视频在线一区二区| 日韩一区中文| 国产mv免费观看入口亚洲| 好看的av在线不卡观看| 一本—道久久a久久精品蜜桃| 91视频xxxx| 在线视频国产三级| 日韩美女视频在线| 国产精品一区二区三区www| 国产成人午夜视频网址| 蜜乳av另类精品一区二区| 波多野结衣乳巨码无在线| 夜夜精品浪潮av一区二区三区| 自拍视频在线播放| 神马久久桃色视频| 精品99在线| 色涩成人影视在线播放| 欧美国产日韩亚洲一区| 午夜在线小视频| 久久精品国产免费观看| 一区二区中文| 日b视频免费观看| 亚洲午夜精品一区二区三区他趣| 特级毛片在线| 欧美亚洲成人免费| 人人精品人人爱| 国产精品久久久久久精| 亚洲国产欧美在线成人app | 久久国产精品首页| 偷拍欧美精品| 69精品丰满人妻无码视频a片| 亚洲成av人影院| 人成在线免费网站| 国产精品高清免费在线观看| 激情综合五月天| 尤物视频网站在线观看| 色99之美女主播在线视频| 伊人激情综合| 免费女人黄页| 亚洲视频一区二区三区| 欧美喷水视频| 亚洲综合婷婷久久| 日韩精品视频在线观看网址| 91亚洲成人| 777久久久精品一区二区三区| 欧美日韩黄视频| 最新亚洲精品| 激情六月天婷婷| 欧美日韩视频在线第一区| 亚洲资源在线| 亚洲精品中文字幕乱码三区不卡 | 一级日本不卡的影视| www.精品| 免费国产在线精品一区二区三区| 国产日产欧美视频| 激情五月综合网| 国产精品视频免费一区二区三区| 99久久精品免费| 一级日本在线| 欧美与欧洲交xxxx免费观看| 国产美女一区二区| 成人性生交大片免费看午夜| 91国产精品91| 国产一区二区久久| 欧美黄色激情| 亚洲aa中文字幕| 中文字幕不卡在线| 99精品在免费线偷拍| 日韩精品国内| 欧洲国内综合视频| 欧美午夜精彩| 国产aa视频| 欧美激情图片区| 99热精品国产| 在线国产成人影院| 秋霞在线一区二区| 日韩精品在线看片z| 一本一本久久| 1024国产在线| 91手机在线观看| 精品国产户外野外| 久久av电影| 午夜在线观看av| 欧美日本精品在线| 久久久久一区二区三区四区| 欧美亚洲大片| 国产在线视频综合| 日韩二区三区在线| 免费在线观看日韩欧美| 爆操欧美美女| 久久婷婷国产综合尤物精品| 色狠狠桃花综合| 99久久亚洲精品蜜臀| 免费观看v片在线观看| 国产精品尤物福利片在线观看| 亚洲精品伦理在线| 成人毛片在线| 清纯唯美亚洲色图| 99久久伊人精品影院| 色系网站成人免费| 黄色欧美成人| 成人欧美亚洲| 免费av在线一区二区| 天堂影视av| 91av在线免费观看视频| 亚洲欧洲国产专区| 国产日韩欧美一区二区三区| 天天干夜夜干| 亚洲精品欧美极品| 欧美一级视频精品观看| 青青草原综合久久大伊人精品优势| av女在线播放| 分分操这里只有精品| 97国产一区二区精品久久呦| 亚洲一二三专区| 欧美特黄视频| 日韩精品分区| 欧美一级视频在线播放| 国内精久久久久久久久久人| 亚洲电影在线播放| 久久久久99| 久久不卡日韩美女| 国产美女视频黄a视频免费| 亚洲在线观看视频| 亚洲精品国产免费| 国产欧美精品一区二区色综合 | av电影在线观看完整版一区二区| 在线播放一区二区精品视频| 一级片在线免费看| 亚洲精品国产系列| 欧美大片免费观看| 精品久久久久久中文字幕大豆网| 免费看黄裸体一级大秀欧美| 嫩草伊人久久精品少妇av杨幂| 成年在线播放小视频| 美乳视频一区二区| av影院在线播放| 久久综合久久99| 天堂网av成人| 日夜干在线视频| 欧美一区少妇| 久久av在线播放| 偷拍日韩校园综合在线| 久久久精品日韩| 最新亚洲国产| 黑人与亚洲人色ⅹvideos| 好色先生视频污| 国产精品第1页| 欧美精品一区二区三区一线天视频 | 久久大香伊蕉在人线观看热2| 中文字幕日韩高清| 免费的黄网站在线观看| 粉嫩av一区| 在线男人天堂|