LeCun力薦的JEPA殺入LLM，用CV的思路訓練LLM，性能魯棒性雙豐收

2025-09-23 09:02:00

Hai Huang、Yann LeCun 及 Randall Balestriero 提出了?LLM-JEPA。這項工作基于 JEPA 理念，首次將這種高效的自監督學習架構成功地從視覺領域擴展到了 LLM。

LeCun 這次不是批評 LLM，而是親自改造。

當前 LLM 的訓練（包括預訓練、微調和評估）主要依賴于在「輸入空間」進行重構與生成，例如預測下一個詞。

而在 CV 領域，基于「嵌入空間」的訓練目標，如聯合嵌入預測架構（JEPA），已被證明遠優于在輸入空間操作的同類方法。

JEPA 的核心概念最早由 Yann LeCun 及其團隊提出，旨在通過在抽象表征空間中預測未來或缺失的特征來高效學習世界知識。隨后，Meta AI 團隊提出了具體實現，包括 I-JEPA（用于圖像、自監督學習、CVPR 2023）和 V-JEPA（用于視頻），驗證了 JEPA 在視覺表征學習中的有效性。

這就啟發了一個新思路：語言模型的訓練，能否從視覺領域獲得一些啟發？

此前，由于設計上的挑戰，適用于語言任務的 JEPA 風格模型一直未能出現。主要原因是 LLM 的能力主要通過其生成文本來評判，這是一種輸入空間的操作，使得非重構的 JEPA 思想難以直接應用。

為填補這一空白，Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。這項工作基于 JEPA 理念，首次將這種高效的自監督學習架構成功地從視覺領域擴展到了 LLM。

該工作通過將（文本、代碼）等數據對視為同一概念的多種視圖，成功地將 JEPA 目標應用于 LLM，作為標準「文本→代碼」等生成任務的有效補充。這既保留了 LLM 強大的生成能力，又引入了 JEPA 在嵌入空間學習高質量表征的優勢。

論文標題： LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
論文地址：https://arxiv.org/pdf/2509.14252v1
代碼：https://github.com/rbalestr-lab/llm-jepa

實驗證明，LLM-JEPA 的性能顯著超越了標準的 LLM 訓練目標。該方法不僅表現出色，還對過擬合問題顯示出強大的魯棒性。

這些結論在 Llama3、OpenELM、Gemma2、Olmo 等多個主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多樣化的數據集上均得到了有力驗證。

JEPA-LLM：提升 LLM 的推理與生成能力

LLM 簡介

當代 LLM 的構建大多遵循著相同的核心原則：即通過堆疊大量的非線性運算層與跳躍連接（即 Transformer 架構）來搭建。

盡管各模型在細節上，如位置嵌入、初始化方法或歸一化層上可能有所不同，但其性能表現的主要驅動力，依舊是預訓練階段所使用的高質量數據集。在訓練目標上，現有方法也基本趨于統一，即自回歸 token 空間重構。

作者首先將特定任務和數據集下所使用的典型 LLM 目標函數定義為。在絕大多數情況下，該函數具體表現為一個交叉熵損失，用于衡量模型預測的 token 與需要重構的真實 token 之間的差異。

值得注意的是，該研究提出的 LLM-JEPA 方法并不依賴于的具體形式，因此具有很強的通用性，能夠適應多種應用場景。

在此公式中，Classifier 負責根據上下文 token 來預測下一個 token 的 logits。整個計算過程通過因果自回歸機制一次性完成。根據訓練階段或任務的不同，該損失函數的輸入與輸出也會相應變化。

LLM-JEPA 目標函數的設計

作者以「Text」（文本）和「Code」（代碼）為例，來說明如何處理對同一底層知識的不同「視角（view）」。通過這個例子，讀者可以清晰地理解，LLM-JEPA 目標函數能夠以統一的方式處理各種不同類型的視角。

LLM-JEPA 目標函數的設計遵循兩大原則：第一，必須保留 LLM 的生成能力，因此算法的起點是傳統的損失。第二，旨在利用聯合嵌入預測任務來增強 LLM 的抽象能力。

基于此，研究團隊在之上，引入了成熟的 JEPA 目標，構建了如下的完整損失函數 L：

其中，λ≥0 是一個用于平衡兩項損失權重的超參數；Pred 和 Enc 分別代表預測器和編碼器網絡；d 則是一個可選擇的度量函數，例如 ?2 距離。下面將對各個組件進行詳細說明。

編碼器： 編碼器的實現方式沿用了 LLM 探查中的常見做法，即取模型最后一層最后一個 token 的 hidden_state 作為輸入序列的嵌入向量。在實踐中，研究團隊指出，無法通過單次前向傳播同時產出 Enc(Text) 和 Enc(Code)。一種看似高效的做法是將 [Text,Code] 拼接后輸入，但這需要修改自注意力機制以避免跨視角信息泄露，從而導致方案與特定 LLM 架構綁定。為此，研究團隊提出通過兩次獨立的前向傳播來分別獲取 Text 和 Code 的編碼。這種方式雖然增加了訓練成本，但并不影響推理效率。

度量： 在嵌入向量的比較方面，CV 領域已廣泛采用余弦相似度。因此，該研究建議在 LLM-JEPA 中也采用相同的度量方式。

預測： 該設計巧妙地利用了 LLM 的自回歸特性和內部的自注意力機制，構建了一個權重綁定預測器。具體來說，通過在輸入序列末尾添加一個特殊的 [PRED] token ，模型可以對輸入信息進行進一步的非線性處理，并將最后一層 [PRED] token 對應的最終嵌入作為預測結果。由于預測任務復用了 LLM 的內部權重，這種設計極大地減少了額外的訓練開銷和架構設計的復雜性。實踐中，通過在輸入提示后附加 k 個預測器 token ，并取最后一個 token 的嵌入作為最終預測。當 k=0 時，預測器退化為恒等函數，即。

與先前工作的關系： 研究表明，類似這樣的輸入空間重構損失（token 可視為原始文本的無損壓縮）在視覺領域并非最優。受此啟發，一些研究開始為 LLM 引入嵌入空間正則化器。然而，現有方案大多依賴對嵌入空間施加復雜的結構性約束（如層次結構、聚類等），這與 JEPA 的理念不同。作者同時指出，將（文本問題、代碼差異）這類數據對視為不同「視角」并加以利用，在 LLM 微調中已有應用，但它們通常通過生成式任務（從一個視角生成另一個）來學習，并未采用 JEPA 風格的損失函數。