LeCun的JEPA已進(jìn)化為視覺-語言模型,1.6B參數(shù)比肩72B Qwen-VL
LeCun 的聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)迎來了新進(jìn)展。
近日,來自 Meta、香港科技大學(xué)、索邦大學(xué)、紐約大學(xué)的一個(gè)聯(lián)合團(tuán)隊(duì)基于 JEPA 打造了一個(gè)視覺-語言模型:VL-JEPA。
據(jù)作者 Pascale Fung 介紹,VL-JEPA 是第一個(gè)基于聯(lián)合嵌入預(yù)測架構(gòu),能夠?qū)崟r(shí)執(zhí)行通用領(lǐng)域視覺-語言任務(wù)的非生成模型。

下面展示了一段該模型實(shí)時(shí)工作的視頻:

不同于傳統(tǒng)的視覺-語言模型(VLM)通過自回歸方式生成 token,VL-JEPA 預(yù)測的是目標(biāo)文本的連續(xù)嵌入(embedding)。通過在抽象的表征空間中學(xué)習(xí),該模型能夠?qū)W⒂谂c任務(wù)相關(guān)的語義,同時(shí)忽略表層語言形式的多變性 。

- 論文標(biāo)題:VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
- 論文地址:https://arxiv.org/abs/2512.10942
該論文共有四位共一作者:Delong Chen(陳德龍)、Mustafa Shukor、Théo Moutakanni、Willy Chung。JEPA 提出者、圖靈獎得主 Yann LeCun 也在作者名單中。
當(dāng)前 VLM 面臨的困難
理解周圍的物理世界是高級機(jī)器智能最重要的方面之一。這種能力使 AI 系統(tǒng)能夠在現(xiàn)實(shí)世界中學(xué)習(xí)、推理、規(guī)劃和行動,從而協(xié)助人類。
需要在現(xiàn)實(shí)世界中行動的智能系統(tǒng)包括可穿戴設(shè)備和機(jī)器人。構(gòu)成這一能力的機(jī)器學(xué)習(xí)任務(wù)包括描述生成(captioning)、檢索、視覺問答、動作跟蹤、推理和規(guī)劃等。用于此類現(xiàn)實(shí)世界應(yīng)用的系統(tǒng)必須具備實(shí)時(shí)響應(yīng)能力,且具有低延遲和低推理成本。
目前,完成這些任務(wù)的通用方法是使用基于 token 生成的大型視覺 - 語言模型(VLM)。
這些模型接收視覺輸入 X_V 和文本查詢 X_Q,在 token 空間中自回歸地生成所需的文本響應(yīng) Y,即 (X_V,X_Q)? Y。這種方法雖然直觀,但也有不足,原因主要有二:
- VLM 的開發(fā)成本高昂。因?yàn)樗鼈兊挠?xùn)練目標(biāo)是生成響應(yīng) Y,這要求模型捕捉任務(wù)相關(guān)的語義,同時(shí)還要處理與任務(wù)無關(guān)的表層語言特征(如選詞、風(fēng)格或改寫)。在訓(xùn)練過程中,VLM 必須同時(shí)對這兩個(gè)方面建模,導(dǎo)致計(jì)算資源被浪費(fèi)在生成多樣化的 token 序列上,而這些序列最終并不影響輸出的正確性。
- 實(shí)時(shí)任務(wù)面臨延遲挑戰(zhàn)。涉及直播視頻的實(shí)時(shí)任務(wù)(如實(shí)時(shí)動作跟蹤)需要稀疏且選擇性的解碼(例如,僅在新事件發(fā)生時(shí)才發(fā)出描述)。然而,VLM 依賴于逐 token 的自回歸解碼,必須在揭示 Y 的底層語義之前完成整個(gè)解碼過程。這一過程引入了不必要的延遲,并阻礙了實(shí)時(shí)動態(tài)更新語義的能力。
視覺-語言聯(lián)合嵌入預(yù)測架構(gòu)(VL-JEPA)
這個(gè)聯(lián)合團(tuán)隊(duì)開發(fā)的視覺-語言聯(lián)合嵌入預(yù)測架構(gòu)(VL-JEPA)能將昂貴的數(shù)據(jù)空間 token 生成學(xué)習(xí)轉(zhuǎn)變?yōu)楦咝У臐摽臻g語義預(yù)測。

如圖 1 所示,該模型會使用 x-encoder 將視覺輸入 X_V 映射為嵌入 S_V,使用 y-encoder 將目標(biāo)文本 Y 映射為嵌入 S_Y,并使用一個(gè)預(yù)測器來學(xué)習(xí)映射 (S_V,X_Q)? S_Y,其中 X_Q 是文本查詢(即提示詞)。
訓(xùn)練目標(biāo)定義在嵌入空間 ??_{VL-JEPA}=D (?_Y,S_Y),而不是數(shù)據(jù)空間 ??_VLM=D (?,Y)。在推理過程中,當(dāng)需要時(shí),y-encoder 會將預(yù)測的嵌入 ?_Y 讀出為文本空間 ?。
得益于其非生成式的特性,VL-JEPA 不必在 token 空間重建 Y 的每一個(gè)表層細(xì)節(jié)。相反,它只需要在嵌入空間預(yù)測抽象表征 S_Y。

在原始的 One-hot token 空間中,對于同一輸入,不同的合理輸出 Y 如果不共享重疊的 token,往往看起來幾乎是正交的。然而,在嵌入空間中,這些多樣化的目標(biāo)可以被映射到共享相似語義的鄰近點(diǎn)。
這就簡化了目標(biāo)分布,從而使學(xué)習(xí)過程更加高效。此外,與 VLM 不同,這種方法消除了在訓(xùn)練期間使用重型解碼器學(xué)習(xí)語言生成的需要,從而顯著提高了效率。
同時(shí),得益于其非自回歸的特性,VL-JEPA 可以在滑動窗口內(nèi)以極低的延遲產(chǎn)生連續(xù)的目標(biāo)語義嵌入流,因?yàn)樗恍枰淮吻跋騻鬟f,無需自回歸解碼。
這對實(shí)時(shí)在線應(yīng)用(如實(shí)時(shí)動作跟蹤、場景識別或規(guī)劃)特別有利,在這些應(yīng)用中,嵌入流可以被輕量級的 Y-Decoder 選擇性地解碼,從而實(shí)現(xiàn)高效且及時(shí)的更新。
實(shí)驗(yàn)表現(xiàn)
VL-JEPA 的優(yōu)勢也得到了實(shí)驗(yàn)驗(yàn)證。
該團(tuán)隊(duì)將其與經(jīng)典的 token 生成式 VLM 進(jìn)行了比較 :兩種設(shè)置使用相同的視覺編碼器、空間分辨率、幀率、訓(xùn)練數(shù)據(jù)、批量大小和迭代次數(shù)等,唯一的區(qū)別在于目標(biāo)是在 token 空間還是嵌入空間。
在這種匹配的訓(xùn)練條件下,VL-JEPA 在零樣本描述生成和分類上提供了一致的更高性能,同時(shí)使用的可訓(xùn)練參數(shù)大約只有一半,這表明嵌入空間監(jiān)督提高了學(xué)習(xí)效率。
除了訓(xùn)練階段,VL-JEPA 還通過選擇性解碼(selective decoding)帶來了顯著的推理效率提升,即僅在預(yù)測的嵌入流發(fā)生顯著變化時(shí)才進(jìn)行解碼。

實(shí)驗(yàn)表明,該策略將解碼操作次數(shù)減少了約 2.85 倍,同時(shí)保持了以平均 CIDEr 分?jǐn)?shù)衡量的整體輸出質(zhì)量。
該團(tuán)隊(duì)最終的 VL-JEPA 模型分兩個(gè)階段訓(xùn)練:
- 使用描述數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以建立穩(wěn)健的視覺-語言對齊;
- 監(jiān)督微調(diào)(SFT)階段,賦予模型 VQA 能力。
第一階段產(chǎn)生的模型稱為 VL-JEPA_BASE,在零樣本分類和文本到視頻檢索方面進(jìn)行了評估。

VL-JEPA_BASE 在平均分類準(zhǔn)確率(跨 8 個(gè)數(shù)據(jù)集)和檢索 recall@1(跨 8 個(gè)數(shù)據(jù)集)方面優(yōu)于 CLIP、SigLIP2 和 Perception Encoder 模型。
經(jīng)過第二階段后,得到的 VL-JEPA_SFT 由于接觸了域內(nèi)訓(xùn)練數(shù)據(jù),分類性能顯著提高。

作為一個(gè)統(tǒng)一的通用模型,VL-JEPA_SFT 接近了針對單個(gè)基準(zhǔn)優(yōu)化的專用模型的性能。同時(shí),VL-JEPA_SFT 展現(xiàn)了有效的 VQA 能力,在涵蓋組合視覺推理、復(fù)雜對象計(jì)數(shù)和對象幻覺的四個(gè)數(shù)據(jù)集上,達(dá)到了與 InstructBLIP 和 Qwen-VL 等成熟 VLM 系列相當(dāng)?shù)男阅堋?/span>
以下視頻演示了使用 VL-JEPA 進(jìn)行機(jī)器人實(shí)時(shí)狀態(tài)跟蹤 (RoboVQA):

該團(tuán)隊(duì)也進(jìn)行了消融實(shí)驗(yàn)驗(yàn)證 VL-JEPA 各組件的有效性。更多詳情請參閱原論文。




































