編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
大模型的另一條主脈絡又開始發力了。
AI 視頻模型,現在已經進化到不僅可以看“OCR”畫面,甚至都開始“會剪片、懂劇情、還能當導演了”!
昨天晚上,一個叫 Vidi2 的視頻大模型,把“AI 剪輯”的上限,直接抬到了一個很多內容創作者都還沒意識到的新高度。做短視頻、影視剪輯、劇情二創、內容工業化的朋友,必須看過來。

比如,你打開一段視頻,只需要輸入一句話:“XX 角色從跪姿站起來。”下一秒,AI 就可以在一段光線昏暗、人物復雜的畫面中:
- 精準定位動作發生的時間段
- 在關鍵幀上,用邊界框準確圈出目標人物
- 清楚地區分“誰在動、誰只是背景”
這就是今天小編注意到的一款視頻模型:字節跳動最新發布的——視頻理解大模型 Vidi2 的真實能力。
可以看出,視頻AI圈已經開啟了2.0角逐的賽點:以前卷“會生成”,現在開始卷視頻的“理解”能力了。
字節背書,來看看Vidi2有何不同?
Vidi2 是字節跳動推出的第二代多模態視頻理解與生成大模型。(言外之意,主打視頻理解和創作。)
它不是“只會生成畫面”的視頻模型,而是一個能同時理解:畫面、聲音、語言、時間結構、人物關系、動作因果的統一視頻理解系統。
再來從技術規格看,它的參數規模只有 12B,其中主干網絡采用 Gemma-3,
輸入模態支持:文本 + 視頻 + 音頻。
而專注解決的核心任務都是面向真實場景的復雜問題:長視頻理解 + 細粒度時空定位 + 時間檢索 + 視頻問答。
之前大家的槽點更多的還是:“這個畫面像不像”,而Vidu2試圖去回答一個更本質、更高級的問題:
視頻里,什么時候發生了什么事,是誰干的,前因后果是什么?
它究竟能做到哪些事?
話不多說,我們直接從應用層來來看,用這個新模型,我們具備了哪些新能力。
(1)自動剪“高光片段”,還知道怎么起標題。
你丟給它一個 1 小時的視頻,它可以:
- 自動找出最有信息密度、最有情緒張力的片段
- 直接生成對應的短視頻
- 同時給你配好標題
圖片
不得不說,這項能力已經越過“輔助剪輯”那條線,而是已經可以接管平時我們大量的基礎剪輯工作。
圖像
(2)而且,它還可以“看得懂人物和劇情因果”。
比如,它能理解這種復雜關系:
A 想打 B,結果打偏了,誤傷了 C。
人類聽起來這像小兒科的問題,但這件事對 AI 來說極難。這意味著它已經同時具備:人物識別、動作理解、空間位置判斷、事件因果推理。這也是它能做劇情剪輯、人物線索剪輯、沖突線剪輯的前提。

(3)它能“一邊看視頻,一邊精準框選目標”。
給它一句話:
“那個穿紅衣服、在爭吵中突然站起來的人”
它可以同時輸出:
- 這一幕發生在 第幾分第幾秒
- 那個人在畫面中的 準確框選位置
圖片
圖片
這意味著什么?意味著它可以做:
- 自動多機位切換
- 智能構圖裁剪
- 人物跟隨取景
- 直播切畫面的自動導播
剪輯、導演、攝像,這幾條線,第一次開始被同一個 AI 能力同時覆蓋。
基準測試性能超過GPT-5、Gemini 3 Pro
為衡量模型在真實復雜場景中的進展,Vidi2 專門構建了兩個面向實際應用中““長視頻 + 時空理解””的核心基準:
VUE-STG(用于長時間跨度下的精細時空定位)與 VUE-TR-V2(用于開放式時間檢索)。
團隊直接將 Vidi2 與行業頂流過招,包括:Gemini 3 Pro、GPT-5。結果是:
Vidi2 在核心視頻理解與時空定位任務上,性能是“斷崖領先”的。
在 STG 任務上,Vidi2 取得了當前最優表現,vIoU 達到 32.57,tIoU 達到 53.19。而 Gemini 3 Pro在前者只得到了 5.5 分,而 GPT.5 的視頻理解能力在 tIoU 的跑分只有 Vidi2 的一半 27.5。
這是少有的,在視頻理解這個高難度賽道上,正面贏過通用大模型的案例。
其次,在檢索任務方面,其整體 IoU 達到 48.75,即便在 超長視頻(>1 小時) 場景下,依然 領先主流商業模型 17.5 個百分點。
圖片
此外,在視頻問答任務上,盡管 Vidi2 的主要優化方向集中于定位與檢索能力,但其綜合理解能力依然保持強勢:
在 VideoMME 基準上取得 63.5 分,在 Long VideoBench 上取得 54.7 分,展現出扎實的多模態推理能力。
圖片
模型已集成到字節產品
基于 Vidi2 的核心能力,字節跳動已經構建出一套可規模化落地的實用工具體系。統一的“定位 + 檢索”技術管道,已經能夠穩定支持多項自動化視頻編輯能力,包括:
- 高光片段提取
- 具備故事理解的智能剪輯
- 內容感知的智能構圖重裁
- 自動多視角切換
更重要的是,這一整套能力,已經可以在消費級硬件上穩定運行。
目前,相關技術已經被直接應用到實際產品中:TikTok 的 Smart Split 功能,已經能夠實現 自動剪輯、智能構圖重裁、自動添加字幕,并將長視頻一鍵轉化為適合 TikTok 傳播的短視頻片段。
圖片
另一款工具 AI Outline,則面向內容創作者,支持將簡單提示詞或熱門話題,自動轉化為結構化的標題、開頭與內容大綱,選題 → 起稿 → 結構化,開始變成一條自動化流水線,顯著降低創作門檻。
圖片
圖片
一位老外看到后,非常興奮:正“這看起來太厲害了,我真心希望有一天我們可以通過提示詞就實現帶自定義格式的自動視頻剪輯,那將徹底改變一切。”
寫在最后
最后有兩點覺得我們需要注意的。
首先,視頻創作的工作流已經發生了全鏈路的變化。如果我們對比過去,視頻創作是:
人找素材 → 人看完 → 人選片 → 人剪 → 人調構圖 → 人加字幕
可隨著AI視頻工具的能力愈發完善,現在正在變成:
AI 看 → AI 選 → AI 剪 → AI 構圖 → 人做判斷和風格
這意味著業界原來的許多層面的門檻已經抹平了。越接近執行的剪輯、素材制作已經不再是高門檻,而判斷、敘事、風格、審美,開始變成唯一不可替代的東西。
其次,視頻 AI 的競爭,已經悄悄“換賽道”了。
從谷歌的 Veo,到生數科技的 Vidu,再到字節的 Vidi2,整個行業的重心正在發生轉移,正如開頭所提到的。
很明顯,上半場,AI圈拼的是,誰能生成更逼真的畫面;而下半場,大家已經在推向新的敘事:
誰能更精準地理解故事、控制結構、定位細節。而字節 Vidi2 的發布,再一次將“理解與控制”拉到視頻 AI 的又一個高度。
Github地址:

































