国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

萬幀?單卡!智源研究院開源輕量級超長視頻理解模型Video-XL-2

人工智能 新聞
近日,智源研究院聯合上海交通大學等機構,正式發布新一代超長視頻理解模型:Video-XL-2。

長視頻理解是多模態大模型關鍵能力之一。盡管 OpenAI GPT-4o、Google Gemini 等私有模型已在該領域取得顯著進展,當前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。

近日,智源研究院聯合上海交通大學等機構,正式發布新一代超長視頻理解模型:Video-XL-2。相較于上一版本的 Video-XL,該模型在多個維度全面優化了多模態大模型對長視頻內容的理解能力:

  • 效果更佳:Video-XL-2 在長視頻理解任務中表現出色,在 MLVU、Video-MME、LVBench 等主流評測基準上達到了同參數規模開源模型的領先水平。
  • 長度更長:新模型顯著擴展了可處理視頻的時長,支持在單張顯卡上高效處理長達萬幀的視頻輸入。
  • 速度更快:Video-XL-2 大幅提升了處理效率,編碼 2048 幀視頻僅需 12 秒,顯著加速長視頻理解流程。

目前,Video-XL-2 的模型權重已全面向社區開放。未來,該模型有望在影視內容分析、異常行為監測等多個實際場景中展現重要應用價值。 

  • 項目主頁:https://unabletousegit.github.io/video-xl2.github.io/
  • 模型 hf 鏈接:https://huggingface.co/BAAI/Video-XL-2
  • 倉庫鏈接:https://github.com/VectorSpaceLab/Video-XL

技術簡介

圖片

圖 1:Video-XL-2 的模型架構示意圖

在模型架構設計上,Video-XL-2 主要由三個核心組件構成:視覺編碼器(Visual Encoder)、動態 Token 合成模塊(Dynamic Token Synthesis, DTS)以及大語言模型(LLM)。

具體而言,Video-XL-2 采用 SigLIP-SO400M 作為視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼為高維視覺特征。隨后,DTS 模塊對這些視覺特征進行融合壓縮,并建模其時序關系,以提取更具語義的動態信息。處理后的視覺表征通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊后的視覺信息輸入至 Qwen2.5-Instruct,以實現對視覺內容的理解與推理,并完成相應的下游任務。

圖片

圖 2:Video-XL-2 的訓練階段示意圖

在訓練策略上,Video-XL-2 采用了四階段漸進式訓練的設計 ,逐步構建其強大的長視頻理解能力。前兩個階段主要利用圖像 / 視頻 - 文本對,完成 DTS 模塊的初始化與跨模態對齊;第三階段則引入更大規模,更高質量的圖像與視頻描述數據,初步奠定模型對視覺內容的理解能力;第四階段,在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調,使 Video-XL-2 的視覺理解能力得到進一步提升與強化,從而能夠更準確地理解和響應復雜的視覺指令。

圖片

圖 3. Chunk-based Prefilling

圖片

圖 4. Bi-granularity KV Decoding

此外,Video-XL-2 還系統性設計了效率優化策略。首先,Video-XL-2 引入了分段式的預裝填策略(Chunk-based Prefilling,如圖 3 所示):將超長視頻劃分為若干連續的片段(chunk),在每個 chunk 內部使用稠密注意力機制進行編碼,而不同 chunk 之間則通過時間戳傳遞上下文信息。該設計顯著降低了預裝填階段的計算成本與顯存開銷。

其次,Video-XL-2 還設計了基于雙粒度 KV 的解碼機制(Bi-granularity KV Decoding,如圖 4 所示):在推理過程中,模型會根據任務需求,選擇性地對關鍵片段加載完整的 KVs(dense KVs),而對其他次要片段僅加載降采樣后的稀疏的 KVs(sparse KVs)。這一機制有效縮短了推理窗口長度,從而大幅提升解碼效率。得益于上述策略的協同優化,Video-XL-2 實現了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應用場景中的實用性。

實驗效果

圖片

圖 5:Video-XL-2 的主要對比結果

圖片

表 1:Video-XL-2 的全面對比結果

在模型具體表現方面,Video-XL-2 在 MLVU、VideoMME 和 LVBench 等主流長視頻評測基準上全面超越現有所有輕量級開源模型,達成當前最先進性能(SOTA),相較第一代 Video-XL 實現了顯著提升。尤其值得關注的是,在 MLVU 和 LVBench 上,Video-XL-2 的性能已接近甚至超越了如 Qwen2.5-VL-72B 和 LLaVA-Video-72B 等參數規模高達 720 億的大模型。

此外,在時序定位(Temporal Grounding)任務中,Video-XL-2 也表現出色,在 Charades-STA 數據集上取得了領先的結果,進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。

圖片

圖 6:Video-XL-2 輸入長度的對比展示

除了效果上的提升,Video-XL-2 在視頻長度方面也展現出顯著優勢。如圖 6 所示,在單張 24GB 消費級顯卡(如 RTX 3090 / 4090)上,Video-XL-2 可處理長達千幀的視頻;而在單張 80GB 高性能顯卡(如 A100 / H100)上,模型更支持萬幀級視頻輸入,遠超現有主流開源模型。相較于 VideoChat-Flash 和初代 Video-XL,Video-XL-2 顯著拓展了視頻理解的長度并有效降低了資源需求,為處理復雜的視頻任務提供了有力的支撐。

圖 7:Video-XL-2 Prefilling 速度的對比展示

圖片

圖 8:Video-XL-2 Prefilling 速度和輸入幀數的關系圖

最后,Video-XL-2 在速度上也展現出卓越性能。如上圖所示,Video-XL-2 僅需 12 秒即可完成 2048 幀視頻的預填充。更重要的是,其預填充時間與輸入幀數之間呈現出近似線性增長,體現了其出色的可擴展性。相比之下,Video-XL 與 VideoChat-Flash 在輸入長視頻條件下的工作效率明顯落后于 Video-XL-2。

應用潛力

以下是一些具體的例子,將展示 Video-XL-2 在實際應用中的巨大潛力:

Example 1 電影情節問答:

圖片

Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?

Answer: The phone’s color is red

Example 2 監控異常檢測:

圖片

Question: Is there any unexpected event happening in this surveillance footage?

Answer: There is physical altercation between the customers and the store employees

Example 3: 影視作品內容總結

Example4:游戲直播內容總結

得益于出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2 在多種實際應用場景中展現出很高的應用潛力。例如,它可廣泛應用于影視內容分析、劇情理解、監控視頻中的異常行為檢測與安全預警等任務,為現實世界中的復雜視頻理解需求提供高效、精準的技術支撐。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-04 13:51:43

視頻生成模型

2025-05-06 09:55:00

2021-03-22 11:16:50

人工智能應用基礎設施

2021-09-02 18:41:48

智源研究院人工智能

2020-12-24 15:40:26

人工智能

2025-11-07 09:32:18

2025-03-19 09:30:00

2023-09-16 13:31:25

模型訓練

2024-11-28 14:20:00

AI模型

2021-01-12 15:11:01

AI 數據人工智能

2015-12-18 11:54:20

微軟亞洲研究院圖數據庫

2021-01-07 19:08:51

人工智能AI

2021-02-01 09:51:35

IBM中國研究院

2025-07-15 08:45:00

點贊
收藏

51CTO技術棧公眾號

亚洲自拍偷拍第一页| 日韩高清国产精品| 国产精品亚洲综合一区在线观看| 国产在线视频你懂| 中文字幕亚洲一区| 欧美激情极品| 老牛影视免费一区二区| 免费日韩视频| 日韩午夜影院| 久久91亚洲精品中文字幕奶水| 蜜臀久久99精品久久一区二区 | 成人av午夜影院| 高清中文字幕一区二区三区| 国产精品免费看久久久香蕉 | 精品国产一级毛片| 毛片中文在线观看| 4388成人网| 日韩精彩视频在线观看| 欧美性天天影视| 国产精品日韩欧美一区二区三区| 69堂成人精品免费视频| 免费在线观看一区二区三区| 日本在线аv| 亚洲欧美国产一区二区三区| 狠狠爱成人网| 国产va在线观看| 亚洲深夜福利在线| 亚洲欧美乱综合| www.爱久久| 日本中文字幕在线观看| 欧美日韩亚洲一区二区三区在线观看| 欧美人伦禁忌dvd放荡欲情| 国产精品视频一区二区三区综合| 色婷婷精品国产一区二区三区| 亚洲成人网久久久| 亚洲精品自拍动漫在线| 亚洲第一区色| 1769在线观看| 欧美黑人在线观看| 国产精品一区二区三| 欧洲精品视频在线观看| 精品一区二区三区的国产在线观看| av在线二区| 日韩欧美视频一区二区三区四区| 国产亚洲精品日韩| 日韩一区在线看| 亚洲国产日韩欧美在线| 在线能看的av网址| 日本一二区视频| 国产亚洲精品aa| 综合av在线| 欧美亚洲tv| 色综合一本到久久亚洲91| 国产对白国语对白| 国产美女作爱全过程免费视频| 激情欧美一区二区三区中文字幕| 欧美怡春院一区二区三区| 在线观看国产精品淫| 国产精品成人免费| 丝袜美腿成人在线| 欧美 日韩 国产一区二区在线视频| 日韩欧美一级| 超碰97国产精品人人cao| 日本私人影院在线观看| 国产v片免费观看| 中国黄色录像片| 亚欧精品在线| 国产不卡视频在线| 亚洲新中文字幕| 久久精品在线播放| 欧美日韩高清在线播放| 红桃av永久久久| 亚洲欧美一区二区三区极速播放| 国产女同互慰高潮91漫画| 91蜜桃免费观看视频| 精品一区二区在线观看| 重囗味另类老妇506070| 国产综合自拍| 亚洲第一黄网| 久久久国产精品一区二区中文| 欧美午夜一区二区福利视频| 日韩成人精品一区| 欧美电影网站| 色猫猫成人app| 欧美大片网站| 国产精品日本一区二区不卡视频 | 一区二区三区视频| 国产在线观看一区| 日韩欧美激情一区二区| 91精品中国老女人| 高清视频一区| 99国产精品白浆在线观看免费| 欧美日韩福利在线| 国产精品久久久久永久免费看| 免费在线稳定资源站| 老司机午夜在线| 美女航空一级毛片在线播放| 亚洲第一图区| 一区二区视频免费完整版观看| 日本在线一区二区三区| 91一区二区| 国产一区欧美日韩| 亚洲激情男女视频| 欧美女孩性生活视频| 精品福利av导航| 97色在线视频| 亚洲人一区二区| 无码免费一区二区三区免费播放| 成人精品视频在线播放| 蜜桃视频在线免费| 免费在线黄色影片| 日韩成人在线电影| 亚洲日本激情| 亚洲视频一区在线| 国产亚洲人成网站在线观看| 欧美在线一区二区视频| 一区二区在线中文字幕电影视频 | 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 欧美精品播放| 国产亚洲欧美日韩日本| 欧美日韩免费网站| 在线观看精品自拍私拍| 欧美自拍资源在线| 自拍偷拍在线视频| 欧洲毛片在线| 荡女精品导航| 美女久久久精品| 正在播放亚洲一区| 国产精品情侣自拍| 国产a一区二区| 一区中文字幕在线观看| 丁香婷婷在线| 四虎影视国产精品| 亚洲欧美日韩国产一区| 欧美日韩精品在线视频| 国产日产亚洲精品| 午夜一区二区三区| 中文字幕免费高清电视剧网站在线观看 | 亚洲国产综合在线观看| 琪琪一区二区三区| 91精品一区二区三区久久久久久| 97在线免费观看| 国产aaa一级片| 男女视频在线| 蜜桃av综合| 日韩欧美国产成人一区二区| 国产专区一区二区三区| 91av入口| 日韩电影免费观看高清完整版在线观看| 久久久蜜桃一区二区人| 精品蜜桃在线看| 欧美国产视频在线观看| 国精一区二区三区| 精品一区二区在线播放| 日韩av在线中文字幕| 性色a∨人人爽网站| 男人日女人逼逼| 色中色在线视频| 国产精品极品在线观看| 欧美韩国日本不卡| 中文字幕av一区二区三区谷原希美| 国产资源在线视频| 国产精品一区二区三区av| 亚洲神马久久| 中文字幕日韩av电影| 2021国产视频| 亚洲麻豆精品| 国产一区在线观看麻豆| 亚洲国产精久久久久久久| 波多野结衣一区二区三区在线观看| 欧美日韩一道本| 色琪琪久久se色| 欧美日韩中文字幕日韩欧美| 欧美成人激情在线| 久久国产精品网| 国产一区二区三区| 欧美在线观看视频一区二区三区| 日本xxxxx18| 欧美大片网址| 亚洲欧美色图小说| 国产精品夜间视频香蕉| 中文字幕桃花岛| 人人精品亚洲| 色婷婷综合视频在线观看| 不卡视频一区二区| 久久电影网站| 最新不卡av在线| youjizz.com亚洲| 国内自拍视频一区二区三区 | 天堂成人国产精品一区| 欧美专区中文字幕| 九色成人搞黄网站| 亚洲人成网站在线| 亚洲欧美久久234| 99久久.com| 欧美极品少妇全裸体| av资源亚洲| 亚洲午夜在线观看视频在线| 日韩免费毛片视频| 日韩经典一区二区|