AAAI 2026 | 跨視頻推理基準 CrossVid:給多模態大模型出一道“綜合題”

Qwen3-VL、Gemini-3 等多模態大語言模型(MLLMs)已在單視頻理解領域展現出色能力,精準識別內容的同時生成精彩解說。但 AI 是否具備人類般的 “跨視頻” 思考能力?例如分辨不同烹飪視頻的食材處理方法、串聯多個電影片段的劇情邏輯、追蹤多視角錄像中同一物體運動 —— 這類能力被稱為跨視頻推理。
為填補該領域評估空白,小紅書技術團隊推出全面評估 MLLMs 跨視頻推理能力的基準測試 CrossVid,目前測試代碼與數據已完全開源。
論文地址:
https://arxiv.org/abs/2511.12263
論文標題:
CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models
開源代碼:
https://github.com/chuntianli666/CrossVid
01、背景:從“看懂一個”到“理解一組”
在目前的視頻理解研究中,絕大多數基準測試都局限于單視頻分析。即便是少數涉及多視角的測試,也往往局限于同一場景的不同角度。
然而,現實世界中的視頻理解需求遠比這復雜。比如,在小紅書這樣的平臺上,用戶往往需要同時處理多個視頻信息,即跨視頻推理(Cross-Video Reasoning, CVR):
- 對比分析: 比較不同博主的探店視頻,找出共同推薦的菜品。
- 時序理解: 觀看一段長故事被切分成的多個片段,自行腦補中間的劇情。
- 信息聚合: 綜合多個教程視頻,總結出一個完整的操作步驟。
現有的評測體系無法有效衡量模型在這些復雜場景下的表現。為此,CrossVid 應運而生,旨在推動視頻理解從“單查詢、單視頻”向“單查詢、多視頻”的范式轉變。
02、CrossVid是什么?首個方位CVR基準
CrossVid 是專門為評估多模態大模型在跨視頻語境下時空推理能力而設計的大型測評基準。

CrossVid 的核心亮點包括:
- 數據規模宏大: 包含 5,331 個精選視頻和 9,015 個高質量問答對。
- 任務層級豐富: 設立了 4 個高層維度(對比分析、時序理解、多視角推理、自由問答)和 10 項具體任務(如行為理解、敘事理解、烹飪對比、多視角計數等)。
- 覆蓋場景廣泛: 視頻平均時長覆蓋從短視頻到長視頻,涵蓋 32 種題材,高度還原真實世界的復雜性。
- 嚴格的質量把控: 采用“半自動化標注流水線”,結合 Qwen2.5-VL 和 DeepSeek-R1 生成初稿,再經過 10 位專家標注員的多輪人工清洗與校驗,確保數據的高質量。

03、數據標注:高質量數據如何產生?
一個優秀的 Benchmark,數據質量是根本。然而,跨視頻推理涉及到復雜的邏輯比對,單純依賴人工編寫效率太低,完全依賴 AI 生成又容易產生幻覺或邏輯漏洞。

這套流程包含三大核心步驟:
1. AI 生成描述,打好基礎
我們首先利用 Qwen2.5-VL-72B 對海量視頻幀進行密集描述(Frame Captioning),結合原始元數據生成詳盡的視覺上下文。隨后,引入具備強大推理能力的 DeepSeek-R1,通過精心設計的 Prompt,讓它基于這些描述生成具有挑戰性的跨視頻問答對。
Tips:為了減少模型“幻覺”,我們在 Prompt 中強制 DeepSeek-R1 輸出正確答案的推理過程,確保從問題到答案的過程是基于視頻內容的正確邏輯。
2. 十位專家精修,去偽存真
AI 生成的數據只是初稿。我們組建了一支由 10 位專業標注員 組成的專家團隊,對數據進行了三輪清洗:
- 粗篩(Filtration): 剔除那些“只看一個視頻就能回答”的簡單問題,確保所有題目都必須結合多個視頻才能解出。
- 精修(Refinement): 消除歧義,優化選項。
- 防作弊設計(Anti-Shortcut): 在時序排序任務中,為了防止模型通過鏡頭切換的邊緣“猜”出順序,標注員對視頻片段進行了時序重對齊(Temporal Realignment),強制模型必須理解視頻內容的因果關系,而不是靠低級視覺特征作弊。
3. 純手工打造,質量過關
對于對空間感知要求極高的多視角推理(Multi-view Reasoning)任務(如無人機視角下的車輛計數與定位),由于物體過小且關系復雜,目前的 AI 難以勝任。因此,這部分數據采用了全人工標注。標注員利用定制的標注工具,在同步播放的雙視角視頻中手動標記物體坐標和關系,確保了數據的絕對精準。
04、實驗結果:AI與人類差距依然較大
為了測試當前 AI 的水平,我們在 CrossVid 上對 22 個主流 MLLMs 進行了廣泛評測,包括閉源模型(如 GPT-4.1, Gemini-2.5-Pro)和開源模型(如 Qwen2.5-VL, InternVL3 等)。

評測結果令人深思:
- 挑戰性極高: 即便是在 CrossVid 上表現最好的模型 Gemini-2.5-Pro,其平均準確率也僅為 50.4%。相比之下,人類的平均準確率高達 89.2%。這表明 CVR 對現有模型來說仍是一個巨大的挑戰。
- 時空推理短板明顯: 在“多視角推理”和“時序理解”任務上,模型與人類的差距尤為巨大。例如在動作對齊任務中,人類準確率為 85.2%,而最強模型僅為 13.4%。
- 閉源模型暫時領先: 閉源模型總體優于開源模型,且具備“思考(Thinking)”機制的模型(如集成思維鏈能力的模型)表現出更強的推理潛力。

05、深度觀察:大模型為什么會“翻車”
通過對模型錯誤的深入分析,CrossVid 團隊揭示了當前 MLLMs 在處理多視頻任務時的主要瓶頸:
- 關鍵幀丟失(Key frame loss): 由于同時輸入多個視頻,模型被迫壓縮每個視頻的幀數,導致關鍵細節(如烹飪中是否裹了面粉)丟失。
- 視頻理解錯誤(Video understanding error):模型對某個單獨的視頻理解出現偏差,導致在進行跨視頻信息整合時出現錯誤。
- 跨視頻對比失效(Cross-video comparison error): 模型可能看懂了單個視頻,但在需要將多段視頻進行邏輯對比時(例如比較兩部電影中“擁抱”含義的不同),往往會產生幻覺或邏輯斷裂。
- 無法整合分布式證據: 真正的跨視頻推理需要將分散在不同視頻中的線索拼在一起,而現有模型更傾向于獨立處理每個視頻。

06、總結與展望
CrossVid 的提出,不僅揭示了當前多模態大模型在復雜推理任務上的局限性,也為未來的研究指明了方向。
我們認為,提升 MLLMs 的跨視頻推理能力,是實現更智能的視頻搜索、更精準的推薦系統以及更強大的視頻創作助手的關鍵一步。
未來,我們期待看到:
- 更高效的長上下文處理機制,以容納更多視頻幀。
- 針對 CVR 優化的模型架構,增強多視頻間的信息交互。
- 利用 CrossVid 數據集,訓練出更懂“視頻群”的智能模型。
CrossVid 現已全面開源,歡迎全球開發者與研究者共同挑戰!
作者簡介
慈霖
小紅書多模態算法工程師。曾在 ICCV、ECCV、IJCV、ACL 等會刊發表多篇論文。主要研究方向:多模態大模型、視頻理解等。
塔斯
小紅書多模態算法工程師。曾在 TIP、TCSVT、ICIP 等會刊發表多篇論文。主要研究方向:多模態大模型、內容理解等。
嘉音
小紅書審核基礎算法組負責人,碩士畢業于清華大學計算機系,負責審核相關業務的大模型算法研究與應用。曾在 ICLR、 CVPR、ICCV、ACM MM、 KDD 等機器學習、計算機視覺、數據挖掘領域頂會發表多篇論文。主要研究方向:多模態大模型、多模態檢索/理解等。
萊戈
小紅書 TnS 負責人。曾在 CVPR、ICCV、ICLR、ECCV、IJCV 等會刊發表多篇論文,曾獲 YouTube-VOS 視頻分割競賽 Top-3 排名,曾獲天池視覺分割大獎賽復賽第 1 名。主要研究方向:目標跟蹤、視頻分割、多模態分類/檢索、多模態大模型等。




































