Google NIPS 2025重磅:NL范式打破Transformer瓶頸,下一代AI架構?

2017年,《Attention is All You Need》一文開創了Transformer時代,徹底改變了深度學習的技術路徑。時隔八年,Google Research發表在NeurIPS 2025的《Nested Learning: The Illusion of Deep Learning Architectures》被業界戲稱為“Attention is All You Need V2”,提出的嵌套學習(Nested Learning,NL)范式,直指當前大模型的核心痛點——像患上順行性遺忘癥一樣,無法持續學習新知識。這篇論文不僅從理論上重構了深度學習的底層邏輯,更通過HOPE模型給出了可落地的解決方案。
論文地址:https://openreview.net/pdf?id=nbMeRvNb7A01、大模型的“遺忘困境”:為何預訓練后再難成長?
用過ChatGPT、文心一言等大模型的人都有過類似體驗:它們能熟練運用預訓練階段學到的知識,但面對新領域、新信息時,要么需要重新微調(成本極高),要么只能依賴有限的上下文窗口臨時“記憶”,無法真正將新知識內化為長期能力。這本質上就是大模型的“順行性遺忘癥”——如同大腦海馬體受損的患者,無法將短期記憶轉化為長期記憶。
這種困境的根源的在于傳統深度學習的兩大局限:
一方面,模型結構是“靜態的”。Transformer等經典架構依賴層堆疊設計,預訓練完成后參數基本固定,后續只能在原有框架內做有限調整。增加層數或擴大參數規模,不僅會遭遇邊際效益遞減,還可能導致訓練低效、泛化能力下降等問題。更關鍵的是,這種扁平式結構無法模擬人類大腦“多時間尺度更新”的特性——我們的大腦既能快速響應即時信息,又能緩慢沉淀長期經驗,而大模型的所有參數都遵循同一更新節奏,難以兼顧靈活性與穩定性。
另一方面,記憶系統是“割裂的”。現有模型的記憶要么局限于上下文窗口內的短期信息(注意力機制負責),要么固化在MLP層的長期參數中(預訓練階段存儲),缺乏中間過渡的記憶層級。就像把所有東西要么隨手拿著,要么鎖進保險柜,沒有抽屜、書架這樣的分層存儲空間,導致新信息難以有序整合,舊知識又容易被覆蓋遺忘。
而人類大腦的持續學習能力,恰恰源于其精妙的記憶管理機制:通過“在線鞏固”(實時將短期記憶轉化為長期記憶)和“離線鞏固”(睡眠中重組強化記憶)兩個過程,結合不同腦電波頻率(如 Delta 波、Theta 波、Alpha 波、Beta 波和 Gamma 波)的多時間尺度更新,實現知識的動態積累。這正是NL范式的靈感來源——讓模型像大腦一樣,具備分層、動態的學習與記憶能力。

02、嵌套學習(NL):把模型變成“多層級優化系統”
NL范式的核心 insight 非常簡潔:深度學習模型不應是“固定架構+獨立算法”的扁平組合,而應是由多個嵌套、并行的優化問題構成的復雜系統。每個優化問題都有自己的“上下文流”和更新頻率,如同大腦中不同功能的神經模塊,各司其職又協同工作。

先搞懂:什么是“聯想記憶”?
NL范式的理論基礎是“聯想記憶”——這是神經心理學中一個核心概念,指建立并提取事件之間關聯的能力。在NL中,所有深度學習模塊(包括優化器、注意力層、MLP)本質上都是“聯想記憶模塊”,它們的核心任務是:通過最小化某個目標函數,將輸入的“鍵”(可以是tokens、梯度、子序列等)映射到對應的“值”,并把這種映射關系壓縮到參數中。
簡單來說,傳統模型的訓練是“單一目標下的參數更新”,而NL視角下的訓練是“多個聯想記憶模塊的協同優化”。比如我們常用的動量梯度下降(SGD with Momentum),在NL框架下就是一個雙層優化系統:內層記憶模塊負責壓縮歷史梯度信息,外層模塊則利用這些信息更新模型主參數,這就像大腦中“快速反應”與“慢速沉淀”的協作過程。
下面用一個列表來展示各個概念:
心理學概念 | 神經科學解釋 | 計算對應 |
記憶(memory) | 突觸權重的瞬時變化(LTP/LTD) | 一次神經更新(參數的一次變化) |
學習(learning) | 把“有效”的記憶保留下來 | 獲得“有效”記憶的過程(優化目標),即優化目標讓 Δθ 朝著降低損失的方向累積 |
聯想記憶 | 看到“鑰匙”就能想起“內容” | 一個算子M:K→V,把“鍵”映射到“值” |
記憶形成 | 突觸可塑性機制(如NMDA受體介導的LTP/LTD)將短期電位變化轉化為長期突觸強度改變 | 最小化L(M(K),V)的優化過程 |
鍵/值 | 感覺輸入的特征表示(如視覺皮層對邊緣的響應)/與鍵關聯的存儲內容(如海馬體中場景記憶的完整表征) | 可以是 tokens、梯度、子序列、圖像塊等任意“事件” |
NL的關鍵創新:多時間尺度與層級化
NL范式最具革命性的設計,是引入了“更新頻率”來劃分模塊層級:
- 高頻模塊:像大腦的視覺皮層,快速響應輸入數據,實時更新(比如處理即時上下文的注意力模塊);
- 低頻模塊:像大腦的前額葉皮層,緩慢整合信息,長期沉淀(比如存儲核心知識的MLP層);
- 同級模塊:更新頻率相同且相互獨立,如同大腦中并行工作的不同感官處理通道。
這種設計直接破解了傳統模型的痛點:不再依賴堆層擴參來提升能力,而是通過層級化的優化的過程,讓模型在不同抽象層面學習知識。更有趣的是,論文指出,Transformer其實只是NL的“簡化版”——它的線性層本質上是NL中“單一頻率更新”的特例,完全沒有發揮多層級協同的優勢。
03、NL范式:三大核心創新
在嵌套學習(NL)范式提出之前,深度學習模型長期受限于“靜態架構+固定算法”的瓶頸——優化器機械執行更新、模型無法自主適配新數據、記憶系統割裂導致遺忘。而NL通過深度優化器、自修改序列模型、連續記憶系統三大核心創新,構建了一套能“主動學習、自我進化、分層記憶”的智能系統。以下從技術原理、實現細節、優勢對比三個維度,對這三大創新進行深度拆解,讓讀者清晰理解其突破所在。
深度優化器:從“固定公式”到“記憶預判”,優化器的“智能升級”
傳統優化器(如Adam、SGD)本質是“梯度處理器”——僅根據當前梯度的固定規則(如動量累加、自適應學習率)更新參數,既無法記憶歷史梯度的規律,也不能預判梯度的未來變化。而NL視角下的“深度優化器”,將優化器本身設計成一個聯想記憶模塊,讓其具備“學習梯度規律、動態調整策略”的能力,核心突破體現在三個層面:
1. 用MLP替代線性記憶:捕捉梯度的“非線性規律”
傳統優化器對歷史梯度的處理是“線性的”——例如SGD with Momentum通過簡單的加權平均(
)積累梯度,無法捕捉梯度隨訓練進程變化的復雜非線性模式(如梯度突然增大、震蕩衰減等)。
深度優化器則用多層感知機(MLP)替代線性動量項,將歷史梯度序列作為MLP的輸入,讓優化器自主學習梯度的非線性關聯。具體來說:
- 輸入層:接收最近K步的梯度值(如
)、當前參數狀態、損失變化率等特征; - 隱藏層:通過激活函數(如ReLU、GELU)學習梯度的高階關聯(例如“當連續3步梯度震蕩幅度小于1e-5時,需減小學習率”);
- 輸出層:輸出當前步的優化更新量(而非固定公式計算的動量值)。
這種設計的優勢在于:傳統優化器的“線性記憶”只能處理簡單的梯度趨勢,而MLP的“非線性記憶”能適配復雜任務(如大語言模型訓練中梯度的劇烈波動、圖像生成任務中梯度的階段性變化),避免因梯度規律突變導致的訓練停滯。
2. 預條件化技術:讓優化器“看懂梯度性質”
傳統優化器對所有參數的梯度“一視同仁”——例如Adam用同一套β1、β2參數處理不同層的梯度(如Transformer的注意力層與MLP層梯度差異顯著),導致部分參數更新過快(易發散)、部分參數更新過慢(收斂停滯)。
深度優化器通過預條件化(Preconditioning) 技術,讓優化器提前“分辨梯度性質”,為不同參數定制更新策略:
- 核心邏輯:在梯度輸入MLP之前,先對梯度進行“特征編碼”——用一個小型子網絡(或統計模塊)分析梯度的“屬性”,如梯度的方差(判斷參數是否接近最優解)、梯度與參數的相關性(判斷參數對任務的重要性)、梯度的稀疏性(判斷參數是否處于“平緩區域”);
- 定制更新:將編碼后的梯度屬性(如“高方差+強相關性”“低方差+弱相關性”)與梯度值一起輸入MLP,讓MLP為不同屬性的梯度輸出差異化更新量。例如:
- 對“高方差+強相關性”的梯度(如預訓練初期的注意力層參數),輸出較大的更新步長,加速收斂;
- 對“低方差+弱相關性”的梯度(如微調階段的偏置參數),輸出較小的更新步長,避免過擬合。
論文中提到,基于預條件化的深度優化器在語言建模任務中,相比傳統Adam,收斂速度提升了30%,且最終困惑度(Perplexity)降低了8%-12%——這正是因為優化器能“按需調整”,不再對所有梯度“一刀切”。
3. 非線性輸出變換:突破“更新量的線性局限”
傳統優化器的更新量是“線性生成”的——例如SGD的更新量是梯度與學習率的乘積(
),Adam的更新量是梯度除以方差平方根后與學習率的乘積,本質都是線性運算,無法應對“梯度小但需要大幅更新”或“梯度大但需要謹慎更新”的場景。
深度優化器在MLP輸出后引入非線性變換函數,進一步擴展更新量的表達能力:
- 常用變換:如牛頓-舒爾茨迭代(Newton-Schulz)、門控激活(Gated Activation)等。以牛頓-舒爾茨變換為例,它能通過迭代計算梯度的“近似逆矩陣”,讓更新量自動適配參數的局部曲率——在損失函數的“平緩區域”(曲率小),放大更新量以加速收斂;在“陡峭區域”(曲率大),縮小更新量以避免震蕩;
- 實例效果:論文中采用“MLP+牛頓-舒爾茨變換”的深度優化器,在語法錯誤糾正(GEC)任務中,相比傳統優化器,訓練穩定性提升顯著,且最終模型在測試集上的準確率提高了4.2個百分點。
深度優化器與傳統優化器的核心差異
對比維度 | 傳統優化器(如Adam、SGD) | NL深度優化器 |
梯度記憶方式 | 線性加權(如動量項mtm_tmt) | MLP非線性記憶(學習梯度關聯規律) |
梯度處理策略 | 統一規則(對所有梯度一視同仁) | 預條件化(按梯度屬性定制策略) |
更新量生成方式 | 線性運算(梯度×學習率等) | 非線性變換(適配局部曲率) |
核心能力 | 被動執行更新 | 主動學習更新策略 |
自修改序列模型:從“人工調參”到“自我適配”,模型的“進化能力”
傳統序列模型(如Transformer、RNN)的“更新規則”完全由人工定義——例如學習率衰減策略(Step Decay、Cosine Decay)、梯度裁剪閾值(如1.0)、正則化強度(如Weight Decay=0.01),這些參數在訓練前固定,無法根據數據特點動態調整。而NL提出的“自修改序列模型”,讓模型學會“自主設計更新規則”,實現“邊學數據邊學如何學習”的元認知能力,核心技術路徑分為三步:
1. 用“更新算法參數化”替代“人工規則”
傳統模型的更新規則是“硬編碼”的——例如“每1000步學習率乘以0.9”是寫死的邏輯,無法根據數據分布變化(如從通用文本切換到專業領域文本)調整。自修改模型的第一步,是將更新規則“參數化”,即用一個小型神經網絡(稱為“更新控制器”)來生成更新所需的關鍵參數:
- 參數化對象:包括學習率、動量系數、權重衰減系數、梯度裁剪閾值等;
- 控制器輸入:模型當前的損失值、損失變化率、梯度 norms、輸入數據的分布特征(如文本的詞頻分布、句子長度分布);
- 控制器輸出:針對當前狀態的最優更新參數(如學習率=2.5e-4、動量系數=0.92、權重衰減=0.008)。
例如在句子融合任務中,當輸入數據從“短句子融合”切換到“長句子融合”時,數據的復雜度提升,模型損失會突然增大。此時更新控制器會自動將學習率降低(從3e-4降至1.2e-4)、權重衰減增大(從0.005增至0.012),避免模型因數據復雜度突變而發散——這一過程完全無需人工干預,是模型自主判斷的結果。
2. 用“自監督信號”訓練更新控制器
更新控制器的“學習目標”是“讓模型在當前任務上的性能最優”,但直接優化這一目標會導致訓練不穩定(因為控制器的輸出會影響模型主參數的更新,進而影響控制器的輸入,形成循環依賴)。論文中采用“自監督信號”解決這一問題:
- 信號設計:將“模型在驗證集上的性能變化”作為控制器的損失信號。例如,若控制器輸出的更新參數讓模型在驗證集上的準確率提升了2%,則給控制器一個正向獎勵;若準確率下降了1%,則給一個負向懲罰;
- 訓練方式:采用“雙階段訓練”——第一階段固定控制器,訓練模型主參數,收集“更新參數與性能變化”的關聯數據;第二階段固定模型主參數,用收集的數據訓練控制器,讓其學習“什么樣的更新參數對應什么樣的性能變化”;之后交替迭代,逐步優化控制器與主參數。
這種訓練方式的關鍵在于“解耦循環依賴”,讓控制器能穩定學習“有效更新策略”。論文中提到,自修改模型在持續學習任務(如分階段學習不同領域的文本)中,相比傳統模型,災難性遺忘(Catastrophic Forgetting)程度降低了60%以上——因為控制器能在切換任務時,自動調整更新規則,保護已學知識不被覆蓋。
3. 用“動態架構調整”實現“結構自優化”
除了更新參數,自修改模型還能自主調整“模型結構”——例如在Transformer中,自主決定注意力頭的數量、MLP層的隱藏單元數、殘差連接的權重等,突破傳統模型“結構固定”的局限:
- 結構參數化:將架構參數(如注意力頭數、MLP隱藏維度)表示為可學習的變量,由“架構控制器”生成;
- 調整邏輯:架構控制器根據輸入數據的復雜度(如句子長度、詞匯多樣性)和模型當前的性能瓶頸(如注意力矩陣稀疏度、MLP激活值分布),動態調整架構。例如:
- 處理長文本時,自動增加注意力頭數(從8頭增至12頭),以捕捉更多長距離依賴;
- 處理簡單文本時,自動減少MLP隱藏維度(從2048降至1024),以降低計算成本。
在1.3B參數的HOPE模型中,自修改序列模型的架構調整功能讓其在長上下文推理任務(如處理5120token的文本)中,相比固定結構的Transformer,推理速度提升了1.8倍,且準確率僅下降0.5個百分點——這正是“結構按需優化”的優勢:不浪費算力在簡單場景,也不吝嗇資源在復雜場景。
連續記憶系統(CMS):從“二元割裂”到“多層連續”,記憶的“類腦管理”
傳統模型的記憶系統是“二元對立”的——短期記憶(如Transformer的注意力機制)僅能存儲當前上下文窗口內的信息(通常為512-4096token),長期記憶(如MLP層參數)僅能存儲預訓練階段的固定知識,二者之間缺乏“中間過渡層”,導致新信息無法有序沉淀(要么丟失,要么覆蓋舊知識)。NL提出的“連續記憶系統(CMS)”,模擬人類大腦“瞬時記憶→短期記憶→長期記憶”的分層存儲機制,用多頻率更新的MLP塊構建“記憶鏈”,實現信息的平滑流轉。
1. 傳統模型記憶系統的二元對立
以Transformer為例, 注意力能捕捉當前上下文的臨時關聯(像即時草稿),卻沒有 “寫入” 長期參數的通道,而 MLP 權重作為長期知識載體,訓練后就完全凍結(像只讀硬盤),導致新信息無法持續積累,本質是 “記憶感知” 與 “知識存儲” 的斷層。例如:
- 注意力看到新詞“apple”在當前句子里指“公司”,但它只能把這一信息保存在注意力矩陣 里。
- 這個矩陣不是模型參數,它隨著輸入變化而實時生成,推理結束就被丟棄。
- 真正存儲知識的MLP 權重在訓練后就凍結了,無法把“apple=公司”這條新知識寫進去。
- 結果:下一句再出現“apple”,模型又只能重新猜,無法利用上次學到的含義。
2. CMS的核心設計:多頻率MLP塊與“記憶鏈”結構
CMS的本質是一組“更新頻率遞減”的MLP塊,每個MLP塊對應一個記憶層級,塊之間通過“信息傳遞門”連接,形成一條從“高頻短期記憶”到“低頻長期記憶”的連續鏈:
- 高頻MLP塊(如每10步更新一次):對應“短期記憶”,負責存儲即時輸入的細節信息(如句子中的具體詞匯、語法結構)。例如在文本簡化任務中,高頻MLP塊會記住“當前句子中的復雜詞匯(如‘晦澀’)需要替換為簡單詞匯(如‘難懂’)”;
- 中頻MLP塊(如每100步更新一次):對應“中期記憶”,負責整合高頻塊的細節信息,提取通用規律(如“‘晦澀’‘深奧’‘艱深’都屬于需要簡化的詞匯,可映射到‘難懂’‘難理解’等簡單詞”);
- 低頻MLP塊(如每1000步更新一次):對應“長期記憶”,負責沉淀中頻塊的規律,形成核心知識(如“文本簡化的核心是將超綱詞匯替換為常用詞匯,將復雜句式拆分為簡單句”);
- 信息傳遞門:控制不同頻率塊之間的信息流動——高頻塊的信息會定期“匯總”到中頻塊,中頻塊的規律會“提煉”到低頻塊,同時低頻塊的核心知識會“指導”高頻塊的即時處理(如判斷當前詞匯是否需要簡化)。
論文中給出的CMS結構公式為:

其中
(頻率遞減),每個
的參數每
步更新一次(
為更新周期)。例如
時,高頻MLP每10步更新一次,低頻MLP每100步更新一次(假設
)。
3. 信息流轉機制:避免“記憶斷層”與“災難性遺忘”
傳統模型的記憶斷層問題,本質是“短期記憶無法轉化為長期記憶”——例如Transformer的注意力機制無法將當前上下文的信息寫入MLP層參數,導致模型無法記住“新學到的詞匯含義”。而CMS通過“雙向信息流轉”解決這一問題:
- 自下而上(短期→長期):高頻塊每更新
次后,會計算“信息重要性分數”(基于該信息對任務損失的貢獻),將分數高于閾值的信息“寫入”中頻塊;中頻塊同理,將重要信息提煉后寫入低頻塊。例如在持續學習任務中,模型新學到的“醫學術語含義”會先存儲在高頻塊,經過多次驗證其重要性后,逐步傳遞到中頻、低頻塊,最終成為長期知識; - 自上而下(長期→短期):低頻塊的核心知識會通過“指導向量”影響高頻塊的處理——例如低頻塊存儲的“文本簡化規則”會生成一個指導向量,告訴高頻塊“當前句子中的‘心肌梗死’需要替換為‘心梗’”,避免高頻塊因信息有限而做出錯誤判斷。
這種雙向流轉機制,讓新信息能“穩步沉淀”(而非瞬間丟失或覆蓋),同時舊知識能“指導新處理”(而非被遺忘)。論文中提到,CMS在持續學習任務(分5個階段學習不同領域文本)中,相比傳統模型,知識保留率提升了75%,且新領域任務的準確率僅比單任務訓練低3.1個百分點——這正是“連續記憶”的價值:既不忘記過去,也能學好現在。
4. CMS與傳統記憶系統的對比
對比維度 | 傳統記憶系統(如Transformer) | NL連續記憶系統(CMS) |
記憶層級 | 二元(短期注意力+長期MLP) | 多層連續(高頻→中頻→低頻MLP) |
更新頻率 | 統一(所有參數同頻率更新) | 分層(頻率隨層級遞減) |
信息流轉 | 單向(短期無法寫入長期) | 雙向(短期→長期沉淀,長期→短期指導) |
核心問題解決 | 上下文窗口有限、易遺忘 | 長上下文處理、持續學習 |
類腦模擬程度 | 低(無分層記憶機制) | 高(模擬大腦記憶鞏固過程) |
三大創新如何重構AI的“學習能力”
NL范式的三大核心創新,本質是對深度學習“學習機制”的全面重構:
- 深度優化器讓“參數更新”從“機械執行”變為“智能預判”,解決了“訓練效率與穩定性”的問題;
- 自修改序列模型讓“更新規則”從“人工定義”變為“自主學習”,解決了“模型適配性與進化性”的問題;
- 連續記憶系統讓“信息存儲”從“二元割裂”變為“多層連續”,解決了“持續學習與記憶保留”的問題。
這三大創新共同構建了一個“類腦”的智能系統——就像人類能通過經驗優化學習方法、能根據任務調整策略、能有序存儲與提取記憶一樣,基于NL的模型也具備了“主動學習、自我進化、分層記憶”的能力。論文中的HOPE模型正是融合了這三大創新,才在語言建模、常識推理、持續學習等任務中超越傳統Transformer,為深度學習的下一階段發展提供了清晰的技術路徑。
04、HOPE模型:NL范式的落地標桿
將自修改序列模型與連續記憶系統結合,研究團隊打造了HOPE架構——這個名字寓意著“治愈”大模型的遺忘癥,帶來持續學習的希望。
從結構上看,HOPE與Transformer有明顯區別:它沒有固定的“注意力+MLP”堆疊結構,而是通過層級化的聯想記憶模塊和連續記憶鏈,動態處理不同時間尺度的信息。

在實驗中,HOPE展現出穩定且領先的性能:
在語言建模任務中,1.3B參數的HOPE在Wiki、LAMBADA等數據集上的困惑度(perplexity)低于Transformer++、RetNet等主流模型;在常識推理任務(如PIQA、HellaSwag、ARC)中,HOPE的平均準確率達到57.23%,超過了 Titans、DeltaNet等強基線模型。更重要的是,在持續學習和長上下文推理任務中,HOPE的優勢更加明顯——它能高效吸收新知識,同時不遺忘已有能力,這正是NL范式“多時間尺度更新”的核心價值體現。

05、為什么說NL是“Transformer之后的下一個方向”?
Transformer的核心是注意力機制,解決了“并行計算+長距離依賴”的問題;而NL的核心是“層級化優化+連續記憶”,解決了“持續學習+動態適應”的問題。這兩大范式的定位完全不同:Transformer是“高效的特征提取器”,而NL是“智能的自主學習者”。
對于AI從業者來說,NL范式的啟示尤為深刻:
- 不要再盲目追求參數規模,層級化的優化設計可能帶來更高效的能力提升;
- 模型的“記憶管理”將成為未來研究的核心方向,如何讓模型像人類一樣高效存儲、提取和更新知識,是突破當前瓶頸的關鍵;
- 優化器、架構、記憶系統的深度融合,將取代“架構設計+獨立優化”的傳統模式。
當然,NL范式并非完美——它的理論復雜度較高,工程實現難度大于Transformer,而且目前的實驗主要集中在語言任務上,在計算機視覺、多模態等領域的表現還有待驗證。但不可否認的是,NL為深度學習提供了一個全新的視角,讓我們從“如何設計更復雜的架構”轉向“如何讓模型更智能地學習”。
06、結語
從Transformer到NL,深度學習正在從“數據驅動的特征學習”向“類腦驅動的自主學習”演進。HOPE模型的成功證明,模擬人類大腦的層級化記憶與多時間尺度更新機制,是解決大模型“順行性遺忘癥”的有效路徑。
對于開發者而言,NL范式的落地可能不需要從零開始——我們可以先從優化器入手,引入深度記憶機制;或者在現有模型中加入層級化的記憶模塊,逐步探索NL的應用場景。而對于研究人員來說,NL打開了一扇新的大門:如何進一步細化記憶層級?如何動態調整模塊的更新頻率?如何將NL與多模態、強化學習結合?這些問題都值得深入探索。
正如《Attention is All You Need》開啟了Transformer時代,《Nested Learning》或許正在開啟一個“類腦自主學習”的新時代。大模型的“遺忘癥”終將被治愈,而NL范式,正是實現這一目標的關鍵鑰匙。






























