LeCun力薦的JEPA殺入LLM,用CV的思路訓練LLM,性能魯棒性雙豐收
LeCun 這次不是批評 LLM,而是親自改造。

當前 LLM 的訓練(包括預訓練、微調和評估)主要依賴于在「輸入空間」進行重構與生成,例如預測下一個詞。
而在 CV 領域,基于「嵌入空間」的訓練目標,如聯合嵌入預測架構(JEPA),已被證明遠優于在輸入空間操作的同類方法。

JEPA 的核心概念最早由 Yann LeCun 及其團隊提出,旨在通過在抽象表征空間中預測未來或缺失的特征來高效學習世界知識。隨后,Meta AI 團隊提出了具體實現,包括 I-JEPA(用于圖像、自監督學習、CVPR 2023)和 V-JEPA(用于視頻),驗證了 JEPA 在視覺表征學習中的有效性。
這就啟發了一個新思路:語言模型的訓練,能否從視覺領域獲得一些啟發?
此前,由于設計上的挑戰,適用于語言任務的 JEPA 風格模型一直未能出現。主要原因是 LLM 的能力主要通過其生成文本來評判,這是一種輸入空間的操作,使得非重構的 JEPA 思想難以直接應用。
為填補這一空白,Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。這項工作基于 JEPA 理念,首次將這種高效的自監督學習架構成功地從視覺領域擴展到了 LLM。
該工作通過將(文本、代碼)等數據對視為同一概念的多種視圖,成功地將 JEPA 目標應用于 LLM,作為標準「文本→代碼」等生成任務的有效補充。這既保留了 LLM 強大的生成能力,又引入了 JEPA 在嵌入空間學習高質量表征的優勢。

- 論文標題: LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
- 論文地址:https://arxiv.org/pdf/2509.14252v1
- 代碼:https://github.com/rbalestr-lab/llm-jepa
實驗證明,LLM-JEPA 的性能顯著超越了標準的 LLM 訓練目標。該方法不僅表現出色,還對過擬合問題顯示出強大的魯棒性。
這些結論在 Llama3、OpenELM、Gemma2、Olmo 等多個主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多樣化的數據集上均得到了有力驗證。
JEPA-LLM:提升 LLM 的推理與生成能力
LLM 簡介
當代 LLM 的構建大多遵循著相同的核心原則:即通過堆疊大量的非線性運算層與跳躍連接(即 Transformer 架構)來搭建。
盡管各模型在細節上,如位置嵌入、初始化方法或歸一化層上可能有所不同,但其性能表現的主要驅動力,依舊是預訓練階段所使用的高質量數據集。在訓練目標上,現有方法也基本趨于統一,即自回歸 token 空間重構。
作者首先將特定任務和數據集下所使用的典型 LLM 目標函數定義為
。在絕大多數情況下,該函數具體表現為一個交叉熵損失,用于衡量模型預測的 token 與需要重構的真實 token 之間的差異。
值得注意的是,該研究提出的 LLM-JEPA 方法并不依賴于
的具體形式,因此具有很強的通用性,能夠適應多種應用場景。

在此公式中,Classifier 負責根據上下文 token
來預測下一個 token
的 logits。整個計算過程通過因果自回歸機制一次性完成。根據訓練階段或任務的不同,該損失函數的輸入與輸出也會相應變化。
LLM-JEPA 目標函數的設計
作者以「Text」(文本)和「Code」(代碼)為例,來說明如何處理對同一底層知識的不同「視角(view)」。通過這個例子,讀者可以清晰地理解,LLM-JEPA 目標函數能夠以統一的方式處理各種不同類型的視角。
LLM-JEPA 目標函數的設計遵循兩大原則:第一,必須保留 LLM 的生成能力,因此算法的起點是傳統的
損失。第二,旨在利用聯合嵌入預測任務來增強 LLM 的抽象能力。
基于此,研究團隊在
之上,引入了成熟的 JEPA 目標,構建了如下的完整損失函數 L:

其中,λ≥0 是一個用于平衡兩項損失權重的超參數;Pred 和 Enc 分別代表預測器和編碼器網絡;d 則是一個可選擇的度量函數,例如 ?2 距離。下面將對各個組件進行詳細說明。
編碼器: 編碼器的實現方式沿用了 LLM 探查中的常見做法,即取模型最后一層最后一個 token 的 hidden_state 作為輸入序列的嵌入向量。在實踐中,研究團隊指出,無法通過單次前向傳播同時產出 Enc(Text) 和 Enc(Code)。一種看似高效的做法是將 [Text,Code] 拼接后輸入,但這需要修改自注意力機制以避免跨視角信息泄露,從而導致方案與特定 LLM 架構綁定。為此,研究團隊提出通過兩次獨立的前向傳播來分別獲取 Text 和 Code 的編碼。這種方式雖然增加了訓練成本,但并不影響推理效率。
度量: 在嵌入向量的比較方面,CV 領域已廣泛采用余弦相似度。因此,該研究建議在 LLM-JEPA 中也采用相同的度量方式。
預測: 該設計巧妙地利用了 LLM 的自回歸特性和內部的自注意力機制,構建了一個權重綁定預測器。具體來說,通過在輸入序列末尾添加一個特殊的 [PRED] token ,模型可以對輸入信息進行進一步的非線性處理,并將最后一層 [PRED] token 對應的最終嵌入作為預測結果
。由于預測任務復用了 LLM 的內部權重,這種設計極大地減少了額外的訓練開銷和架構設計的復雜性。實踐中,通過在輸入提示后附加 k 個預測器 token ,并取最后一個 token 的嵌入作為最終預測。當 k=0 時,預測器退化為恒等函數,即
。
與先前工作的關系: 研究表明,類似
這樣的輸入空間重構損失(token 可視為原始文本的無損壓縮)在視覺領域并非最優。受此啟發,一些研究開始為 LLM 引入嵌入空間正則化器。然而,現有方案大多依賴對嵌入空間施加復雜的結構性約束(如層次結構、聚類等),這與 JEPA 的理念不同。作者同時指出,將(文本問題、代碼差異)這類數據對視為不同「視角」并加以利用,在 LLM 微調中已有應用,但它們通常通過生成式任務(從一個視角生成另一個)來學習,并未采用 JEPA 風格的損失函數。
實證驗證:LLM-JEPA 性能優于傳統 LLM
- 傳統
損失無法隱式優化 LJEPA 目標
研究團隊首先觀察到一個關鍵現象(如圖 4 所示):僅僅最小化傳統的
損失,并不會隱式地優化
損失。這一發現直接說明了在訓練中顯式地加入
損失項的必要性。

- LLM-JEPA 能夠提升微調效果
研究團隊在多個主流預訓練 LLM(包括 Llama-3.2-1B-Instruct、gemma-2-2b-it 等)及多種數據集(如 NL-RX-SYNTH、GSM8K 等)上展開了全面的微調實驗。
實驗流程是,首先為每個(模型、數據集)組合搜索出最優學習率,然后在此基礎上,通過網格搜索確定 LLM-JEPA 的兩個關鍵超參數 k 和 λ 的最佳組合。評估指標根據任務特性而定,例如在 NL-RX 數據集上采用精確匹配準確率。
實驗結果(圖 1 左)清晰地表明,LLM-JEPA 能夠在不同模型、不同數據集、不同訓練時長和不同模型尺寸下全面提升性能。

如表 3 所示,即使在不同的 LoRA 秩配置下,LLM-JEPA 的性能優勢依然穩固。

此外,研究還提供了證據(圖 6、7、10),證明 LLM-JEPA 能夠學習到從 Text 編碼到 Code 編碼之間的一個近似線性變換。


- LLM-JEPA 同樣能改進預訓練過程
為了驗證其在預訓練階段的有效性,研究團隊在一個數據集上從零開始訓練 Llama-3.2-1B-Instruct。結果如表 1 所示,采用 LLM-JEPA 的模型在學習表示的質量上顯著優于傳統方法。

在另一項對釋義數據集的預訓練實驗中,使用 JEPA 預訓練過的模型,在下游情感分類任務上進行微調時,也表現出更強的性能(表 4)。這證明了 JEPA 在預訓練階段帶來的益處可以遷移到下游任務。

最后,表 2 的生成樣本表明,經過 JEPA 預訓練后,模型在遵循提示進行文本生成時,其原有的生成能力并未受到損害。

研究團隊表示,盡管當前實驗主要聚焦于微調階段,但初步的預訓練結果同樣展現了巨大潛力,研究團隊計劃在未來工作中對其進行更大規模、更全面的測試。
關于該方法的局限性,當前最主要的瓶頸是訓練過程中為獲取多視角表示而導致的三倍計算開銷。
未來,研究團隊計劃探索通過掩碼自注意力矩陣等方式,實現在單次前向傳播中完成 LLM-JEPA 損失的計算,以降低訓練成本。
不過也有人指出,該方法因嚴重依賴「配對數據」而導致其泛化性不足,再加上高昂的訓練成本,使其缺乏實際應用價值。

對此你怎么看?
更多細節請參見原論文。































