用155萬模擬視頻給模型上課!GVE模型一次學(xué)會(huì)9種視頻檢索技能
當(dāng)前視頻檢索研究正陷入一個(gè)閉環(huán)困境:以MSRVTT為代表的窄域基準(zhǔn),長期主導(dǎo)模型在粗粒度文本查詢上的優(yōu)化,導(dǎo)致訓(xùn)練數(shù)據(jù)有偏、模型能力受限,難以應(yīng)對(duì)真實(shí)世界中細(xì)粒度、長上下文、多模態(tài)組合等復(fù)雜檢索需求。
要突破這一瓶頸,亟需重構(gòu)視頻檢索的范式——從“專用”走向“通用”。
在這一“大一統(tǒng)”愿景下,香港科技大學(xué)(廣州)聯(lián)合阿里巴巴通義實(shí)驗(yàn)室展開系統(tǒng)性探索,首次提出通用視頻檢索概念,并構(gòu)建了包含16個(gè)數(shù)據(jù)集、覆蓋多任務(wù)與多領(lǐng)域的綜合評(píng)測基準(zhǔn)UVRB;合成了155萬條高質(zhì)量、多模態(tài)、任務(wù)多樣化的視頻-語言訓(xùn)練對(duì);并為多模態(tài)大模型底座量身設(shè)計(jì)了任務(wù)金字塔課程訓(xùn)練策略。
由此推出的通用視頻嵌入模型GVE(含3B與7B兩個(gè)版本),在嚴(yán)格零樣本設(shè)置下全面超越現(xiàn)有14個(gè)主流模型,展現(xiàn)出卓越的泛化能力。
這項(xiàng)工作不僅帶來了當(dāng)前性能最強(qiáng)的視頻嵌入模型,更通過基準(zhǔn)—數(shù)據(jù)—訓(xùn)練的全鏈條創(chuàng)新,為視頻檢索的通用化奠定了方法論基礎(chǔ)。

問題動(dòng)機(jī):高分模型為何難以應(yīng)對(duì)真實(shí)視頻檢索需求?
當(dāng)前主流視頻檢索模型(如微軟的CLIP4Clip、上海AI Lab的InternVideo2和快手的Unite等)在MSRVTT等經(jīng)典基準(zhǔn)上表現(xiàn)優(yōu)異,但其能力邊界往往局限于粗粒度的文本-視頻匹配任務(wù)。
這類基準(zhǔn)通常使用簡短、泛化的文本描述(如“一個(gè)人在跳舞”),評(píng)估模型是否能從候選集中找到大致對(duì)應(yīng)的視頻。然而,真實(shí)世界中的用戶需求遠(yuǎn)比這復(fù)雜。
例如,用戶可能希望通過“文字 + 參考圖像”組合查詢特定視頻,用一段視頻片段作為示例進(jìn)行相似性檢索,精確指定空間關(guān)系(如“畫面左側(cè)穿紅衣者”),時(shí)間動(dòng)態(tài)(如“從跳躍到落地的連續(xù)動(dòng)作”)或部分相關(guān)性(如“只要視頻中提及”無人機(jī)”即視為相關(guān)”)等等。
遺憾的是,現(xiàn)有模型和評(píng)測體系對(duì)這類多模態(tài)輸入和細(xì)粒度語義理解支持有限,根本原因在于:當(dāng)前訓(xùn)練數(shù)據(jù)多源自網(wǎng)絡(luò)爬取的噪聲標(biāo)簽,任務(wù)設(shè)計(jì)高度單一,且評(píng)估指標(biāo)未能反映模型在復(fù)雜場景下的魯棒性與泛化性。
相比之下,圖像檢索領(lǐng)域已逐步走向統(tǒng)一的多模態(tài)表征框架,能夠靈活支持文本、圖像乃至屬性等多種查詢形式。
這一趨勢表明,通用性(universality)正成為視覺檢索系統(tǒng)的核心目標(biāo)。
受此啟發(fā),團(tuán)隊(duì)主張將視頻檢索從“針對(duì)特定任務(wù)優(yōu)化”的范式,轉(zhuǎn)向支持多任務(wù)、多粒度、多域的通用建模。
團(tuán)隊(duì)不僅關(guān)注模型在標(biāo)準(zhǔn)測試集上的性能,更致力于構(gòu)建一個(gè)能真正編碼復(fù)雜視頻語義、適應(yīng)多樣化檢索需求的系統(tǒng)性解決方案。
邁向視頻檢索通用化:評(píng)測-數(shù)據(jù)-模型三位一體的全新范式
UVR:通用視頻檢索概念定義
該工作系統(tǒng)性定義了Universal Video Retrieval(UVR),即通用視頻檢索,包含:
- 3 大任務(wù)類型:純文本(TXT)、圖文組合(CMP)、純視覺(VIS)
- 3 大領(lǐng)域:粗粒度(CG)、細(xì)粒度(FG)、長上下文(LC);其中細(xì)粒度分為:空間(S)、時(shí)間(T)、部分相關(guān)(PR)

任務(wù)和領(lǐng)域的交叉便可以全面涵蓋真實(shí)視頻檢索的場景。
例如TXT+S,即空間文本視頻檢索是給定空間上物體和位置的描述來尋找對(duì)應(yīng)的視頻(如“一對(duì)情侶溜一只狗的vlog”);或CMP+T,即時(shí)序組合視頻檢索是給定一張圖片及與圖片里內(nèi)容變化的描述檢索相關(guān)的視頻(如“圖中人物走進(jìn)遠(yuǎn)處房子的片段”)。
UVRB:最全面的視頻檢索基準(zhǔn)
該工作構(gòu)建了 Universal Video Retrieval Benchmark (UVRB),包含16個(gè)數(shù)據(jù)集,交叉覆蓋了以上3種任務(wù)類型,3種領(lǐng)域,和3種細(xì)粒度子領(lǐng)域。
這一全面的基準(zhǔn)要求一個(gè)模型在9種能力上均有優(yōu)秀的表現(xiàn);通過統(tǒng)一環(huán)境下的大規(guī)模的測試,該工作首次揭示現(xiàn)有模型的“偏科”問題,進(jìn)一步印證了當(dāng)前基準(zhǔn)、數(shù)據(jù)和模型的不足之處,打破曾經(jīng)由被“刷爆”的基準(zhǔn)帶來的視頻檢索領(lǐng)域“飽和”的錯(cuò)覺。

△圖1 GVE系列模型在多個(gè)維度上顯著領(lǐng)先
V-SynFlow合成的 UVRD:155 萬高質(zhì)量多粒度多任務(wù)訓(xùn)練數(shù)據(jù)
基于原始視頻檢索數(shù)據(jù),團(tuán)隊(duì)設(shè)計(jì) V-SynFlow 流程進(jìn)行三階段數(shù)據(jù)增強(qiáng)與合成:
- 多粒度質(zhì)量過濾(去噪聲、保一致性);
- MLLM 驅(qū)動(dòng)的多維度語義豐富化(生成空間/時(shí)間/主題等多風(fēng)格描述);
- 擴(kuò)展合成圖文組合、幀-視頻、片段-視頻等復(fù)雜任務(wù)對(duì)。
數(shù)據(jù)覆蓋文本→視頻、圖像→視頻、圖文→視頻、視頻→視頻等多種模態(tài)組合。

△圖2 可控、可擴(kuò)展、高效的合成數(shù)據(jù)流:“臟數(shù)據(jù)”到“高質(zhì)量多任務(wù)訓(xùn)練集”
設(shè)計(jì) Modality Pyramid:任務(wù)金字塔課程學(xué)習(xí)
設(shè)計(jì)基于Qwen2.5-VL的通用視頻表征大模型
- 模型架構(gòu):以Qwen2.5-VL為基座,凍結(jié)視覺編碼器,僅用LoRA微調(diào)LLM部分;
- 輸入融合:支持任意模態(tài)組合(文本/圖像/視頻),通過特殊 token 注入視覺特征;
- 表征提取:取最后一個(gè)token的隱藏狀態(tài),經(jīng)L2歸一化后用于檢索;
- 訓(xùn)練目標(biāo):對(duì)稱InfoNCE損失 + 難負(fù)樣本挖掘;-課程學(xué)習(xí)設(shè)計(jì)理念:基礎(chǔ)能力是高級(jí)能力的前提(如物體識(shí)別之于動(dòng)作理解);
- 提出自底向上的自適應(yīng)課程調(diào)度策略:先學(xué)簡單任務(wù)(例如文本-圖像對(duì)齊),再逐步進(jìn)階到復(fù)雜任務(wù)(例如圖文組合檢索);
- 動(dòng)態(tài)調(diào)整任務(wù)采樣概率,確保模型穩(wěn)扎穩(wěn)打、不偏科。

△圖3 多模態(tài)視頻表征大模型架構(gòu)

△圖4 模態(tài)金字塔:越基礎(chǔ)、容易的任務(wù)可以為更復(fù)雜、困難的任務(wù)提供先驗(yàn)知識(shí)
實(shí)驗(yàn)結(jié)果:多任務(wù)多能力中全面領(lǐng)先
研究團(tuán)隊(duì)在實(shí)驗(yàn)中精心構(gòu)建了一個(gè)高度可控且可復(fù)現(xiàn)的評(píng)估環(huán)境。將14個(gè)主流基線模型納入對(duì)比范圍,涵蓋從 8700 萬到 83 億參數(shù)不等的 CLIP 架構(gòu)模型(如CLIP4Clip、InternVideo2)和新興的多模態(tài)大語言模型(MLLM)架構(gòu)(如GME-7B、Unite-7B、B3-7B等)。
值得注意的是,部分基線模型可能在訓(xùn)練中使用了與UVRB測試集(如MSRVTT、DiDeMo)同源的數(shù)據(jù),而GVE模型則嚴(yán)格避免任何領(lǐng)域內(nèi)數(shù)據(jù)接觸,完全在零樣本條件下進(jìn)行評(píng)估。
此外,所有模型統(tǒng)一采用 8 幀均勻采樣的視頻輸入,僅使用原始視覺幀,排除音頻、語音和元數(shù)據(jù)干擾;表征向量均經(jīng)歸一化處理,并統(tǒng)一使用余弦相似度進(jìn)行檢索匹配,確保比較的公平性。對(duì)于不原生支持視頻輸入的模型,研究團(tuán)隊(duì)設(shè)計(jì)了多圖像嵌入進(jìn)行適配。
GVE-7B 全面領(lǐng)先,中小模型亦顯高效
在涵蓋16個(gè)數(shù)據(jù)集的UVRB基準(zhǔn)上,GVE-7B模型以平均0.573的Recall@1(或相應(yīng)指標(biāo))得分,顯著超越當(dāng)前最強(qiáng)基線Unite-7B(0.538),領(lǐng)先幅度達(dá)6.5%。
研究發(fā)現(xiàn),僅含38億參數(shù)的GVE-3B模型(平均分0.544) 甚至超過了參數(shù)量翻倍的Unite-7B,充分證明其性能優(yōu)勢并非源于模型規(guī)模或數(shù)據(jù)泄露,而是來自更優(yōu)的訓(xùn)練數(shù)據(jù)與學(xué)習(xí)策略。
進(jìn)一步按任務(wù)類型與領(lǐng)域維度分析(見表1),GVE-7B在所有關(guān)鍵能力上均取得領(lǐng)先。
尤其在對(duì)模型通用性更具判別力的“部分相關(guān)視頻檢索”(PR)任務(wù)中,GVE-7B以0.419的得分緊追最佳表現(xiàn),展現(xiàn)出卓越的語義判別力。

△表1 在UVRB上評(píng)測的9個(gè)維度視頻檢索能力榜單:TXT(文本)、CMP(組合)、VIS(視覺)、CG(粗粒度)、FG(細(xì)粒度)、LC(長上下文)、S(空間)、T(時(shí)序)、PR(部分相關(guān))
消融試驗(yàn):創(chuàng)新訓(xùn)練策略
為探究性能提升的根源,研究團(tuán)隊(duì)開展了消融實(shí)驗(yàn)。結(jié)果表明:
- 合成數(shù)據(jù)集UVRD的引入顯著提升了模型在組合推理等復(fù)雜任務(wù)上的能力,例如GVE-3B在CMP任務(wù)上相對(duì)提升達(dá) 27%;
- 模態(tài)金字塔課程(Modality Pyramid Curriculum) 進(jìn)一步優(yōu)化了知識(shí)整合,使GVE-7B的整體能力從0.594提升至0.600。
兩項(xiàng)技術(shù)協(xié)同作用,共同貢獻(xiàn)了1.8%–3.1%的整體性能增益。
深度分析:解構(gòu)視頻表征的能力
在模型性能數(shù)字的背后,研究首次系統(tǒng)性地揭示了當(dāng)前多模態(tài)視頻嵌入模型在能力發(fā)展上的結(jié)構(gòu)性盲區(qū)與進(jìn)化路徑。通過對(duì) UVRB 多維指標(biāo)的交叉分析,研究團(tuán)隊(duì)提煉出四項(xiàng)關(guān)鍵發(fā)現(xiàn),有望重塑視頻理解領(lǐng)域的評(píng)估與設(shè)計(jì)范式。

△圖5 對(duì)比CLIP架構(gòu)與MLLM架構(gòu)模型在UVRB各能力維度(如文本驅(qū)動(dòng)、組合語義、空間/時(shí)間理解等)上的性能相關(guān)性。顏色越深表示相關(guān)性越高,揭示不同架構(gòu)在能力發(fā)展上的耦合與割裂模式。

△圖6 展示 UVRB 中各個(gè)任務(wù)維度(如細(xì)粒度、長上下文、部分相關(guān)等)及具體數(shù)據(jù)集與模型平均性能的相關(guān)性。特別凸顯“部分相關(guān)視頻檢索”(PR)作為通用能力代理指標(biāo)的高判別力。
發(fā)現(xiàn)一:傳統(tǒng)基準(zhǔn)已“失靈”——MSRVTT 等數(shù)據(jù)集正在誤導(dǎo)研究方向
長久以來,MSRVTT、DiDeMo等數(shù)據(jù)集被視為視頻檢索的主要標(biāo)準(zhǔn)。但本研究發(fā)現(xiàn),這些經(jīng)典基準(zhǔn)與模型在真實(shí)復(fù)雜場景下的綜合表現(xiàn)相關(guān)性僅為0.58——這意味著在MSRVTT上刷高分,很可能只是在“熟悉的考題”中死記硬背,而非真正理解視頻。
更令人警醒的是,一個(gè)曾被忽視的維度——“部分相關(guān)視頻檢索”(Partially Relevant Retrieval, PR)——卻展現(xiàn)出驚人的評(píng)估價(jià)值:它與整體能力的相關(guān)性高達(dá)0.97。
這說明,能否在語義模糊、邊界不清的場景中精準(zhǔn)判別“相關(guān)但不完全匹配”的內(nèi)容,是更能衡量模型嵌入質(zhì)量的“試金石”之一。研究者呼吁:是時(shí)候?qū)R任務(wù)納入主流評(píng)估體系了。
發(fā)現(xiàn)二:時(shí)空理解的解耦性——模型會(huì)“看圖”卻不會(huì)“看動(dòng)作”
想象一個(gè)模型能精準(zhǔn)識(shí)別視頻中“一只貓坐在沙發(fā)上”,卻無法判斷“貓是從左邊跳上去的還是右邊走過去的”——這正是當(dāng)前絕大多數(shù)模型的真實(shí)寫照。研究量化揭示:空間感知(S)與時(shí)間推理(T)能力幾乎完全脫節(jié)(相關(guān)性僅0.12)。
更關(guān)鍵的是,在對(duì)細(xì)粒度理解的決定上,時(shí)間能力幾乎一錘定音(與細(xì)粒度任務(wù)相關(guān)性達(dá)0.98),而空間信息貢獻(xiàn)微弱(僅0.39)。
這意味著,現(xiàn)有模型本質(zhì)上仍是靜態(tài)圖像的堆疊,而非動(dòng)態(tài)事件的理解。真正的視頻檢索智能,需要能同時(shí)編碼“在哪里”和“何時(shí)發(fā)生”——而當(dāng)前模型對(duì)此明顯“偏科”。
發(fā)現(xiàn)三:架構(gòu)決定命運(yùn)——CLIP 與 MLLM 正走向兩條能力進(jìn)化路徑
研究發(fā)現(xiàn),模型架構(gòu)深刻影響其能力基因。CLIP系模型在粗粒度空間任務(wù)上近乎完美(相關(guān)性0.99),卻在時(shí)間維度上先天不足;更令人意外的是,它們?cè)诮M合語義理解越強(qiáng),純視覺匹配反而越弱(負(fù)相關(guān)-0.71)。
而MLLM 架構(gòu)則展現(xiàn)出更均衡、更集成的學(xué)習(xí)模式:不僅在語義判別(如PR與CG任務(wù)關(guān)聯(lián)度達(dá)0.98)上碾壓CLIP(僅0.70),還能將長上下文理解與時(shí)間建模有效耦合(相關(guān)性0.64 vs. CLIP 的-0.14)。
這解釋了為何MLLM正迅速成為視頻嵌入模型新范式——它不只是更大,而是更通用。
發(fā)現(xiàn)四:以語言為中心的表征大模型并未真正“看得更清”
在“越大越好”的浪潮下,一個(gè)反直覺的事實(shí)浮出水面:參數(shù)規(guī)模對(duì)基礎(chǔ)視覺感知能力幾乎無益。8700萬參數(shù)的CLIP4Clip在純視覺任務(wù)(VIS)上得分0.714,竟高于 80 億參數(shù)的頂尖模型Unite-7B(0.702)。
更值得深思的是,視覺檢索與綜合檢索能力之間相關(guān)性極低(僅0.26)。這意味著,即使模型能“看清”每一幀細(xì)節(jié),若缺乏高層語義對(duì)齊能力,依然無法完成復(fù)雜檢索。
研究警告:盲目擴(kuò)大模型未必能解決視頻理解的根本瓶頸,未來的突破點(diǎn)可能在于基于以語言為核心的多模態(tài)表征大模型的視覺底層像素編碼和高層語義抽象的折衷。
實(shí)驗(yàn)總結(jié)
研究的實(shí)驗(yàn)部分圍繞一個(gè)核心目標(biāo)展開:驗(yàn)證通用視頻檢索是否可以通過評(píng)估體系、訓(xùn)練數(shù)據(jù)與學(xué)習(xí)策略的協(xié)同優(yōu)化來實(shí)現(xiàn)。
為此,團(tuán)隊(duì)構(gòu)建了UVRB基準(zhǔn),首次將視頻檢索能力拆解為多個(gè)可測量的維度(如細(xì)粒度、長上下文、組合查詢等),并在此基礎(chǔ)上對(duì)14個(gè)代表性模型進(jìn)行了統(tǒng)一、公平的零樣本評(píng)測。
結(jié)果表明,僅靠擴(kuò)大模型規(guī)模或依賴現(xiàn)有噪聲數(shù)據(jù),難以在復(fù)雜任務(wù)上取得一致提升。
相比之下,GVE通過在高質(zhì)量合成數(shù)據(jù)UVRD上,采用模態(tài)金字塔課程進(jìn)行訓(xùn)練,顯著提升了在多個(gè)維度上的表現(xiàn),尤其在對(duì)泛化能力要求更高的任務(wù)(如部分相關(guān)檢索、時(shí)間推理)中優(yōu)勢明顯。
值得注意的是,GVE-3B的性能已超過多個(gè)參數(shù)量更大的基線,說明數(shù)據(jù)質(zhì)量與訓(xùn)練策略的優(yōu)化,可能比單純?cè)黾幽P鸵?guī)模更具性價(jià)比。
更進(jìn)一步,基于UVRB的相關(guān)性分析揭示了當(dāng)前視頻嵌入模型的能力結(jié)構(gòu):傳統(tǒng)基準(zhǔn)與整體能力關(guān)聯(lián)較弱,時(shí)空知識(shí)的嵌入能力存在明顯解耦,不同架構(gòu)在能力發(fā)展上呈現(xiàn)系統(tǒng)性差異。這些發(fā)現(xiàn)不僅解釋了GVE的優(yōu)勢來源,也為后續(xù)研究提供了可復(fù)現(xiàn)的診斷工具與明確的改進(jìn)方向。
結(jié)語:視頻檢索的現(xiàn)在與未來
視頻檢索正從“匹配標(biāo)題”走向“理解內(nèi)容”——但這一轉(zhuǎn)變需要新的評(píng)估標(biāo)準(zhǔn)、更豐富的訓(xùn)練信號(hào),以及對(duì)任務(wù)間依賴關(guān)系的顯式建模。
研究沒有追求單一指標(biāo)的突破,而是嘗試構(gòu)建一個(gè)可診斷、可擴(kuò)展、可復(fù)現(xiàn)的通用視頻檢索研究框架。
通過UVRB基準(zhǔn),研究者可以清晰看到模型在哪些場景下表現(xiàn)穩(wěn)健,在哪些維度上存在短板;通過V-SynFlow合成流程,高質(zhì)量、多任務(wù)的訓(xùn)練數(shù)據(jù)得以規(guī)模化生成;通過模態(tài)金字塔課程,模型能夠分階段習(xí)得從基礎(chǔ)感知到高階推理的能力。
三者結(jié)合,使得GVE在不依賴測試域數(shù)據(jù)的前提下,展現(xiàn)出更均衡、更魯棒的零樣本表現(xiàn)。
研究團(tuán)隊(duì)已開源GVE系列模型及UVRB基準(zhǔn),推動(dòng)社區(qū)從”刷榜競賽”轉(zhuǎn)向”能力診斷”與”可用性拓展”,并希望這項(xiàng)工作不僅帶來性能最強(qiáng)的視頻嵌入模型,更為視頻檢索從”窄域?qū)S谩边~向”通用智能”奠定方法論基礎(chǔ)。
論文鏈接:https://arxiv.org/abs/2510.27571
項(xiàng)目主頁:https://gzn00417.github.io/GVE/
模型和數(shù)據(jù):https://huggingface.co/collections/Alibaba-NLP/gve
































