LeCun在Meta的最后一篇論文
《LeJEPA:無需啟發式的可證明且可擴展的自監督學習》。
“這可能是LeCun以Meta身份發表的最后一篇論文了。”

沒錯,這篇帶“Le”的論文,介紹了一種自監督學習方法,于11月11日在arXiv提交,是LeCun的最新公開成果。
也是在這一天,他離職Meta的消息被曝光。
如果說LeCun在2013年加入開啟了Meta AI研究的一個時代,那么LeJEPA就是他在Meta的告別之作。
LeJEPA究竟是怎樣的“最后一舞”?
LeJEPA:基于各向同性高斯嵌入的自監督學習方法
LeJEPA核心是提出了一種基于各向同性高斯嵌入的自監督學習方法,通過引入SIGReg正則化,有效解決了表示崩潰問題,并顯著提升了模型的泛化能力。
在傳統的JEPA框架中,預測任務常面臨表示崩潰的問題。
這意味著,在訓練過程中,模型可能將所有輸入映射到單一的點或低維空間,導致嵌入空間中的樣本不可區分,從而無法有效捕捉樣本間的語義差異。
針對這一問題,現有方法依賴啟發式技術,如停止梯度、非對稱視圖生成和教師-學生網絡,但這些方法由于缺乏對JEPA基礎理論的探索,被視為替代方案。
基于以上背景,研究提出一種新的JEPA框架——潛在歐幾里得JEPA(Latent-Euclidean Joint Embedding PredictiveArchitecture,LeJEPA),其核心是使嵌入空間遵循特定的統計分布,從而提升模型的預測性能。
嵌入分布的影響
首先,研究通過最小二乘回歸(OLS)分析了嵌入分布對偏差和方差的影響。
結果表明,等向高斯分布能夠最小化訓練過程中的偏差和方差。
特別地,在總方差相同的情況下,非等向分布會導致更高的偏差和方差,而等向高斯分布則能夠有效地保證最小的偏差和方差,從而提高下游任務的穩定性和準確性。
通過在非線性探測和幾何直覺方面的實驗,研究進一步驗證了等向高斯分布的優越性。
實驗表明,無論是在回歸任務還是分類任務中,等向高斯分布都能保持最小的誤差,而非等向分布則表現出較高的方差。

研究表明, 各向同性高斯分布是嵌入空間的最佳分布,它可以在沒有任務信息的情況下,保證最小化偏差和方差,從而提高下游任務的表現。
SIGReg:實現高斯分布的正則化
為實現上述分布匹配,研究提出了草圖化各向同性高斯正則化(Sketched Isotropic Gaussian Regularization,SIGReg),這是一種可處理、可證明正確的正則化方法。
SIGReg的創新點在于:
- 將分布匹配問題轉化為統計假設檢驗,通過零假設與目標分布的匹配來實現
- 提供了一種測試方法,保證在多GPU訓練時的高效性,并確保梯度和曲率有界
- 解決了高維空間中的維度災難問題。
SIGReg通過單變量方向檢驗,結合Epps-Pulley測試來判斷嵌入分布與目標分布(等向高斯分布)的匹配程度。
它將分布匹配轉化為零假設與備擇假設的檢驗,并通過統計量判斷是否拒絕零假設,從而確認分布是否匹配。
高維問題的解決
SIGReg還通過兩條機制解決了高維空間中的計算挑戰:
- 平滑性:嵌入函數的Sobolev平滑性保證了在僅需O(K)個方向切片的情況下即可有效約束整個空間,進行有效的統計檢驗。
- SGD迭代特性:訓練過程中方向的重復采樣累積效應使得即使方向數量很少(如M=16),也能迅速收斂到各向同性分布,優于固定方向集。
在實現方面,LeJEPA結合了SIGReg和預測損失兩部分,通過Epps-Pulley統計量實現分布匹配,并通過小批次訓練保證計算效率和穩定性。最終的總損失是SIGReg損失和預測損失的加權和。
- SIGReg損失:通過Epps-Pulley統計量計算,確保訓練過程中梯度有界,并通過積分近似提升計算效率。小批次訓練引入的偏差對訓練影響較小。
- 預測損失:與DINO方法相似,通過計算所有視圖預測全局視圖的差異。
- LeJEPA總損失:是SIGReg損失和預測損失的加權和,其中一個超參數λ用于平衡這兩部分的權重。
實驗驗證與結果
為了驗證LeJEPA的可靠性,研究在多個大型架構上進行實驗,包括ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等,模型規模接近10億參數。

實驗結果顯示,LeJEPA在這些架構上表現超越現有方法,且保持了訓練的簡便性和魯棒性。
特別地,在領域特定的數據集(如Galaxy10、Food101)上,LeJEPA在直接在目標數據上預訓練時超越了基于DINOv2的遷移學習方法。

總的來說,LeJEPA延續了之前JEPA的探索,重新確立了自監督學習作為AI研究的核心方法。
LeJEPA通過提供一個簡單且理論上有支持的框架,使得從數據中學習表示變得更加高效,并在多個任務中展示了優越的性能。
JEPA世界模型
自LeCun于2022年在《A Path Towards Autonomous Machine Intelligence》中首次提出JEPA以來,基于JEPA的架構已經發展了整整三年。

JEPA(Joint-Embedding Predictive Architecture)是一種自監督學習框架,旨在通過基于嵌入空間的聯合預測方法來提升模型的表達能力和推理能力。
與生成式模型不同,它并不能簡單地用于從x預測y,它僅捕捉x和y之間的依賴關系而無需顯式生成y的預測。

此外,為了應對長期規劃問題,JEPA還可以進一步通過分層架構(即H-JEPA)來增強其抽象能力。
在H-JEPA中,低層表示處理短期預測任務,而高層表示則用于長期預測。
這種分層結構使得模型在進行長期規劃時,可以在不同的抽象層次上進行操作,從而提高可預測性和減少信息損失。

值得一提的是,JEPA架構通常與世界模型密切相關,只不過其與一般意義上的世界模型仍有區別。
傳統的世界模型一般指能夠模擬環境或系統的模型,其主要目的是通過預測未來狀態來實現長期規劃和決策(如強化學習)。
而JEPA則是一種通過聯合嵌入空間學習狀態與動作轉移的架構,重點在于結合表示學習和自監督學習來完成預測和規劃任務。

在JEPA中,世界模型的目的是預測世界狀態的未來表現形式。
具體而言,JEPA通過學習狀態與動作的轉移來訓練世界模型,其核心在于從當前狀態的表示推斷未來狀態的表示,這一過程是在聯合嵌入空間中完成的。該空間通過最小化預測誤差來學習狀態表示與動作之間的關系。
盡管最初的JEPA論文呈現出一種對生成式AI的反思,描述了人工智能未來的愿景,并指出這一愿景可能需要數十年的時間才能實現。
但自2022年夏季發布以來,在LeCun的推動下,JEPA架構已經取得了一些顯著進展。
I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

與其他圖像SSL方法相比,I-JEPA充分利用了Transformer架構的靈活性。
在I-JEPA中,上下文編碼器是一個ViT,它僅處理可見的上下文塊。
預測器接收上下文編碼器的輸出,并根據位置標記(以顏色顯示)預測特定位置的目標塊表示。
目標表示對應于目標編碼器的輸出,權重在每次迭代中通過上下文編碼器權重的指數滑動平均進行更新。
V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video

V-JEPA是I-JEPA在視頻領域的擴展,它通過將視頻視為3D圖像來實現這一點。
訓練過程基于一個包含T幀的視頻片段,空間分辨率為H×W,并將其展平成一個L個token的序列。
首先通過從視頻片段中去除一些tokens來獲得x-encoder的輸入。
接著,x-encoder處理被屏蔽的視頻序列,并為每個輸入token輸出一個嵌入向量。
然后,x-encoder的輸出與一組可學習的mask tokens進行拼接,這些mask tokens包含了被屏蔽的時空補丁的位置信息嵌入。
預測網絡處理拼接后的token序列,并為每個mask token輸出一個嵌入向量。
最后,預測網絡的輸出通過 L1 損失回歸到預測目標。預測目標對應于y-encoder的輸出。
今年7月,LeCun團隊又進一步發布了V-JEPA 2。

V -JEPA 2基于V-JEPA,進一步提升了動作預測和世界建模能力,使機器人能夠與陌生物體和環境進行交互,從而完成任務。
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

MC-JEPA是JEPA 的擴展,使其能夠包含運動信息。
架構通過在視頻中使用光流估計學習運動,并通過圖像視角的聯合嵌入學習內容,以多任務方式共享編碼器。其光流估計架構基于PWC-Net。
光流估計采用粗到精的方式,先估算初步的光流,再逐層精細化,最終通過圖像重建損失來優化。
整個過程中,前向-反向光流的一致性通過循環一致性損失得到強化。為了避免訓練不穩定,模型在每個特征層使用方差-協方差正則化。
除上述工作以外,LeCun及其團隊還進一步圍繞JEPA發表了JEPAs、LLM-JEAP等工作。
總的來說,盡管JEPA架構相較于傳統監督學習方法提供了一條新路徑,但其自發布以來就毀譽參半。
比如,有人批評JEPA架構過于抽象,難以應用到最前沿的主流模型中,其與生成式AI的背離也讓不少網友將Meta的失利歸咎于LeCun的學術取向。
甚至有Meta AI員工表示:Fair尚未證明自己是DeepMind等研究機構的真正競爭對手。
而最新發布的LeJEPA也徹底在LeCun和Meta之間劃上了句號。

不過,LeJEPA雖然可能LeCun在Meta的研究終點,但肯定不是JEPA發展的終結。
據消息稱,LeCun已經在籌集資金,創辦初創公司,繼續推進他在世界模型方面的工作。
而在AI熱辣滾燙之下,這位65歲圖靈獎得主、AI三巨頭之一的教父級人物,創業又豈會缺資源?
唯一的問題,只可能是LeCun一直以來給人過于“學術”的風格和印象,擔憂他在嚴格計算ROI的商業世界里,再次遭遇Meta生涯末期里的分歧和困境。
One more thing
雖然LeCun與Meta的“分手”說不上體面,但在Meta的這十多年也許是LeCun生涯中最順的時期——
深度學習爆發、加入紐大、建立FAIR、辦頂會(ICLR)、拿圖靈獎、出自傳(《科學之路》)、發paper,帶學生。

自2013年加入Meta以來,LeCun的個人被引飆升,約為406919次,占總數的93%。
雖然光三巨頭合寫的《深度學習》綜述就貢獻了10萬多次,但也足見LeCun學術影響力的飆升。

這段黃金時期不僅見證了LeCun個人事業的巔峰,更推動了整個AI領域的發展。
江湖上至今流傳著扎克伯格當年現身NIPS時的轟動,并且都在認為他會帶走一票AI天才……

△扎克伯格與約書亞·本吉奧在NIPS 2013
但最后扎克伯格只是請來了LeCun,一人勝過千軍萬馬。
LeCun成就了Facebook\Meta的AI轉型之名,成為了金字招牌;Meta也一度給過LeCun足夠自由的研究待遇和環境。

只是最后結局前的波瀾,令人唏噓~
好在,65歲的Yann LeCun,依舊是闖的年紀~~































