Google NIPS 2025重磅：NL范式打破Transformer瓶頸，下一代AI架構？

作者：Goldma 2025-12-09 08:36:43

從Transformer到NL，深度學習正在從“數據驅動的特征學習”向“類腦驅動的自主學習”演進。HOPE模型的成功證明，模擬人類大腦的層級化記憶與多時間尺度更新機制，是解決大模型“順行性遺忘癥”的有效路徑。

2017年，《Attention is All You Need》一文開創了Transformer時代，徹底改變了深度學習的技術路徑。時隔八年，Google Research發表在NeurIPS 2025的《Nested Learning: The Illusion of Deep Learning Architectures》被業界戲稱為“Attention is All You Need V2”，提出的嵌套學習（Nested Learning，NL）范式，直指當前大模型的核心痛點——像患上順行性遺忘癥一樣，無法持續學習新知識。這篇論文不僅從理論上重構了深度學習的底層邏輯，更通過HOPE模型給出了可落地的解決方案。

論文地址：https://openreview.net/pdf?id=nbMeRvNb7A

01、大模型的“遺忘困境”：為何預訓練后再難成長？

用過ChatGPT、文心一言等大模型的人都有過類似體驗：它們能熟練運用預訓練階段學到的知識，但面對新領域、新信息時，要么需要重新微調（成本極高），要么只能依賴有限的上下文窗口臨時“記憶”，無法真正將新知識內化為長期能力。這本質上就是大模型的“順行性遺忘癥”——如同大腦海馬體受損的患者，無法將短期記憶轉化為長期記憶。

這種困境的根源的在于傳統深度學習的兩大局限：

一方面，模型結構是“靜態的”。Transformer等經典架構依賴層堆疊設計，預訓練完成后參數基本固定，后續只能在原有框架內做有限調整。增加層數或擴大參數規模，不僅會遭遇邊際效益遞減，還可能導致訓練低效、泛化能力下降等問題。更關鍵的是，這種扁平式結構無法模擬人類大腦“多時間尺度更新”的特性——我們的大腦既能快速響應即時信息，又能緩慢沉淀長期經驗，而大模型的所有參數都遵循同一更新節奏，難以兼顧靈活性與穩定性。

另一方面，記憶系統是“割裂的”。現有模型的記憶要么局限于上下文窗口內的短期信息（注意力機制負責），要么固化在MLP層的長期參數中（預訓練階段存儲），缺乏中間過渡的記憶層級。就像把所有東西要么隨手拿著，要么鎖進保險柜，沒有抽屜、書架這樣的分層存儲空間，導致新信息難以有序整合，舊知識又容易被覆蓋遺忘。

而人類大腦的持續學習能力，恰恰源于其精妙的記憶管理機制：通過“在線鞏固”（實時將短期記憶轉化為長期記憶）和“離線鞏固”（睡眠中重組強化記憶）兩個過程，結合不同腦電波頻率（如 Delta 波、Theta 波、Alpha 波、Beta 波和 Gamma 波）的多時間尺度更新，實現知識的動態積累。這正是NL范式的靈感來源——讓模型像大腦一樣，具備分層、動態的學習與記憶能力。

02、嵌套學習（NL）：把模型變成“多層級優化系統”

NL范式的核心 insight 非常簡潔：深度學習模型不應是“固定架構+獨立算法”的扁平組合，而應是由多個嵌套、并行的優化問題構成的復雜系統。每個優化問題都有自己的“上下文流”和更新頻率，如同大腦中不同功能的神經模塊，各司其職又協同工作。

先搞懂：什么是“聯想記憶”？

NL范式的理論基礎是“聯想記憶”——這是神經心理學中一個核心概念，指建立并提取事件之間關聯的能力。在NL中，所有深度學習模塊（包括優化器、注意力層、MLP）本質上都是“聯想記憶模塊”，它們的核心任務是：通過最小化某個目標函數，將輸入的“鍵”（可以是tokens、梯度、子序列等）映射到對應的“值”，并把這種映射關系壓縮到參數中。

簡單來說，傳統模型的訓練是“單一目標下的參數更新”，而NL視角下的訓練是“多個聯想記憶模塊的協同優化”。比如我們常用的動量梯度下降（SGD with Momentum），在NL框架下就是一個雙層優化系統：內層記憶模塊負責壓縮歷史梯度信息，外層模塊則利用這些信息更新模型主參數，這就像大腦中“快速反應”與“慢速沉淀”的協作過程。

下面用一個列表來展示各個概念：

心理學概念	神經科學解釋	計算對應
記憶（memory）	突觸權重的瞬時變化（LTP/LTD）	一次神經更新（參數的一次變化）
學習（learning）	把“有效”的記憶保留下來	獲得“有效”記憶的過程（優化目標），即優化目標讓 Δθ 朝著降低損失的方向累積
聯想記憶	看到“鑰匙”就能想起“內容”	一個算子M:K→V，把“鍵”映射到“值”
記憶形成	突觸可塑性機制（如NMDA受體介導的LTP/LTD）將短期電位變化轉化為長期突觸強度改變	最小化L(M(K),V)的優化過程
鍵/值	感覺輸入的特征表示（如視覺皮層對邊緣的響應）/與鍵關聯的存儲內容（如海馬體中場景記憶的完整表征）	可以是 tokens、梯度、子序列、圖像塊等任意“事件”

NL的關鍵創新：多時間尺度與層級化

NL范式最具革命性的設計，是引入了“更新頻率”來劃分模塊層級：

高頻模塊：像大腦的視覺皮層，快速響應輸入數據，實時更新（比如處理即時上下文的注意力模塊）；
低頻模塊：像大腦的前額葉皮層，緩慢整合信息，長期沉淀（比如存儲核心知識的MLP層）；
同級模塊：更新頻率相同且相互獨立，如同大腦中并行工作的不同感官處理通道。

這種設計直接破解了傳統模型的痛點：不再依賴堆層擴參來提升能力，而是通過層級化的優化的過程，讓模型在不同抽象層面學習知識。更有趣的是，論文指出，Transformer其實只是NL的“簡化版”——它的線性層本質上是NL中“單一頻率更新”的特例，完全沒有發揮多層級協同的優勢。

03、NL范式：三大核心創新

在嵌套學習（NL）范式提出之前，深度學習模型長期受限于“靜態架構+固定算法”的瓶頸——優化器機械執行更新、模型無法自主適配新數據、記憶系統割裂導致遺忘。而NL通過深度優化器、自修改序列模型、連續記憶系統三大核心創新，構建了一套能“主動學習、自我進化、分層記憶”的智能系統。以下從技術原理、實現細節、優勢對比三個維度，對這三大創新進行深度拆解，讓讀者清晰理解其突破所在。

深度優化器：從“固定公式”到“記憶預判”，優化器的“智能升級”

傳統優化器（如Adam、SGD）本質是“梯度處理器”——僅根據當前梯度的固定規則（如動量累加、自適應學習率）更新參數，既無法記憶歷史梯度的規律，也不能預判梯度的未來變化。而NL視角下的“深度優化器”，將優化器本身設計成一個聯想記憶模塊，讓其具備“學習梯度規律、動態調整策略”的能力，核心突破體現在三個層面：

1. 用MLP替代線性記憶：捕捉梯度的“非線性規律”

傳統優化器對歷史梯度的處理是“線性的”——例如SGD with Momentum通過簡單的加權平均（）積累梯度，無法捕捉梯度隨訓練進程變化的復雜非線性模式（如梯度突然增大、震蕩衰減等）。

深度優化器則用多層感知機（MLP）替代線性動量項，將歷史梯度序列作為MLP的輸入，讓優化器自主學習梯度的非線性關聯。具體來說：

輸入層：接收最近K步的梯度值（如）、當前參數狀態、損失變化率等特征；
隱藏層：通過激活函數（如ReLU、GELU）學習梯度的高階關聯（例如“當連續3步梯度震蕩幅度小于1e-5時，需減小學習率”）；
輸出層：輸出當前步的優化更新量（而非固定公式計算的動量值）。

這種設計的優勢在于：傳統優化器的“線性記憶”只能處理簡單的梯度趨勢，而MLP的“非線性記憶”能適配復雜任務（如大語言模型訓練中梯度的劇烈波動、圖像生成任務中梯度的階段性變化），避免因梯度規律突變導致的訓練停滯。

2. 預條件化技術：讓優化器“看懂梯度性質”

傳統優化器對所有參數的梯度“一視同仁”——例如Adam用同一套β1、β2參數處理不同層的梯度（如Transformer的注意力層與MLP層梯度差異顯著），導致部分參數更新過快（易發散）、部分參數更新過慢（收斂停滯）。

深度優化器通過預條件化（Preconditioning） 技術，讓優化器提前“分辨梯度性質”，為不同參數定制更新策略：

核心邏輯：在梯度輸入MLP之前，先對梯度進行“特征編碼”——用一個小型子網絡（或統計模塊）分析梯度的“屬性”，如梯度的方差（判斷參數是否接近最優解）、梯度與參數的相關性（判斷參數對任務的重要性）、梯度的稀疏性（判斷參數是否處于“平緩區域”）；
定制更新：將編碼后的梯度屬性（如“高方差+強相關性”“低方差+弱相關性”）與梯度值一起輸入MLP，讓MLP為不同屬性的梯度輸出差異化更新量。例如：
對“高方差+強相關性”的梯度（如預訓練初期的注意力層參數），輸出較大的更新步長，加速收斂；
對“低方差+弱相關性”的梯度（如微調階段的偏置參數），輸出較小的更新步長，避免過擬合。

論文中提到，基于預條件化的深度優化器在語言建模任務中，相比傳統Adam，收斂速度提升了30%，且最終困惑度（Perplexity）降低了8%-12%——這正是因為優化器能“按需調整”，不再對所有梯度“一刀切”。

3. 非線性輸出變換：突破“更新量的線性局限”

傳統優化器的更新量是“線性生成”的——例如SGD的更新量是梯度與學習率的乘積（），Adam的更新量是梯度除以方差平方根后與學習率的乘積，本質都是線性運算，無法應對“梯度小但需要大幅更新”或“梯度大但需要謹慎更新”的場景。

深度優化器在MLP輸出后引入非線性變換函數，進一步擴展更新量的表達能力：

常用變換：如牛頓-舒爾茨迭代（Newton-Schulz）、門控激活（Gated Activation）等。以牛頓-舒爾茨變換為例，它能通過迭代計算梯度的“近似逆矩陣”，讓更新量自動適配參數的局部曲率——在損失函數的“平緩區域”（曲率小），放大更新量以加速收斂；在“陡峭區域”（曲率大），縮小更新量以避免震蕩；
實例效果：論文中采用“MLP+牛頓-舒爾茨變換”的深度優化器，在語法錯誤糾正（GEC）任務中，相比傳統優化器，訓練穩定性提升顯著，且最終模型在測試集上的準確率提高了4.2個百分點。

深度優化器與傳統優化器的核心差異

對比維度	傳統優化器（如Adam、SGD）	NL深度優化器
梯度記憶方式	線性加權（如動量項mtm_tmt）	MLP非線性記憶（學習梯度關聯規律）
梯度處理策略	統一規則（對所有梯度一視同仁）	預條件化（按梯度屬性定制策略）
更新量生成方式	線性運算（梯度×學習率等）	非線性變換（適配局部曲率）
核心能力	被動執行更新	主動學習更新策略

自修改序列模型：從“人工調參”到“自我適配”，模型的“進化能力”

傳統序列模型（如Transformer、RNN）的“更新規則”完全由人工定義——例如學習率衰減策略（Step Decay、Cosine Decay）、梯度裁剪閾值（如1.0）、正則化強度（如Weight Decay=0.01），這些參數在訓練前固定，無法根據數據特點動態調整。而NL提出的“自修改序列模型”，讓模型學會“自主設計更新規則”，實現“邊學數據邊學如何學習”的元認知能力，核心技術路徑分為三步：

1. 用“更新算法參數化”替代“人工規則”

傳統模型的更新規則是“硬編碼”的——例如“每1000步學習率乘以0.9”是寫死的邏輯，無法根據數據分布變化（如從通用文本切換到專業領域文本）調整。自修改模型的第一步，是將更新規則“參數化”，即用一個小型神經網絡（稱為“更新控制器”）來生成更新所需的關鍵參數：

參數化對象：包括學習率、動量系數、權重衰減系數、梯度裁剪閾值等；
控制器輸入：模型當前的損失值、損失變化率、梯度 norms、輸入數據的分布特征（如文本的詞頻分布、句子長度分布）；
控制器輸出：針對當前狀態的最優更新參數（如學習率=2.5e-4、動量系數=0.92、權重衰減=0.008）。

例如在句子融合任務中，當輸入數據從“短句子融合”切換到“長句子融合”時，數據的復雜度提升，模型損失會突然增大。此時更新控制器會自動將學習率降低（從3e-4降至1.2e-4）、權重衰減增大（從0.005增至0.012），避免模型因數據復雜度突變而發散——這一過程完全無需人工干預，是模型自主判斷的結果。

2. 用“自監督信號”訓練更新控制器

更新控制器的“學習目標”是“讓模型在當前任務上的性能最優”，但直接優化這一目標會導致訓練不穩定（因為控制器的輸出會影響模型主參數的更新，進而影響控制器的輸入，形成循環依賴）。論文中采用“自監督信號”解決這一問題：

信號設計：將“模型在驗證集上的性能變化”作為控制器的損失信號。例如，若控制器輸出的更新參數讓模型在驗證集上的準確率提升了2%，則給控制器一個正向獎勵；若準確率下降了1%，則給一個負向懲罰；
訓練方式：采用“雙階段訓練”——第一階段固定控制器，訓練模型主參數，收集“更新參數與性能變化”的關聯數據；第二階段固定模型主參數，用收集的數據訓練控制器，讓其學習“什么樣的更新參數對應什么樣的性能變化”；之后交替迭代，逐步優化控制器與主參數。

這種訓練方式的關鍵在于“解耦循環依賴”，讓控制器能穩定學習“有效更新策略”。論文中提到，自修改模型在持續學習任務（如分階段學習不同領域的文本）中，相比傳統模型，災難性遺忘（Catastrophic Forgetting）程度降低了60%以上——因為控制器能在切換任務時，自動調整更新規則，保護已學知識不被覆蓋。

3. 用“動態架構調整”實現“結構自優化”

除了更新參數，自修改模型還能自主調整“模型結構”——例如在Transformer中，自主決定注意力頭的數量、MLP層的隱藏單元數、殘差連接的權重等，突破傳統模型“結構固定”的局限：

結構參數化：將架構參數（如注意力頭數、MLP隱藏維度）表示為可學習的變量，由“架構控制器”生成；
調整邏輯：架構控制器根據輸入數據的復雜度（如句子長度、詞匯多樣性）和模型當前的性能瓶頸（如注意力矩陣稀疏度、MLP激活值分布），動態調整架構。例如：
處理長文本時，自動增加注意力頭數（從8頭增至12頭），以捕捉更多長距離依賴；
處理簡單文本時，自動減少MLP隱藏維度（從2048降至1024），以降低計算成本。

在1.3B參數的HOPE模型中，自修改序列模型的架構調整功能讓其在長上下文推理任務（如處理5120token的文本）中，相比固定結構的Transformer，推理速度提升了1.8倍，且準確率僅下降0.5個百分點——這正是“結構按需優化”的優勢：不浪費算力在簡單場景，也不吝嗇資源在復雜場景。

連續記憶系統（CMS）：從“二元割裂”到“多層連續”，記憶的“類腦管理”

傳統模型的記憶系統是“二元對立”的——短期記憶（如Transformer的注意力機制）僅能存儲當前上下文窗口內的信息（通常為512-4096token），長期記憶（如MLP層參數）僅能存儲預訓練階段的固定知識，二者之間缺乏“中間過渡層”，導致新信息無法有序沉淀（要么丟失，要么覆蓋舊知識）。NL提出的“連續記憶系統（CMS）”，模擬人類大腦“瞬時記憶→短期記憶→長期記憶”的分層存儲機制，用多頻率更新的MLP塊構建“記憶鏈”，實現信息的平滑流轉。

1. 傳統模型記憶系統的二元對立

以Transformer為例，注意力能捕捉當前上下文的臨時關聯（像即時草稿），卻沒有 “寫入” 長期參數的通道，而 MLP 權重作為長期知識載體，訓練后就完全凍結（像只讀硬盤），導致新信息無法持續積累，本質是 “記憶感知” 與 “知識存儲” 的斷層。例如：

注意力看到新詞“apple”在當前句子里指“公司”，但它只能把這一信息保存在注意力矩陣 里。
這個矩陣不是模型參數，它隨著輸入變化而實時生成，推理結束就被丟棄。
真正存儲知識的MLP 權重在訓練后就凍結了，無法把“apple=公司”這條新知識寫進去。
結果：下一句再出現“apple”，模型又只能重新猜，無法利用上次學到的含義。

2. CMS的核心設計：多頻率MLP塊與“記憶鏈”結構

CMS的本質是一組“更新頻率遞減”的MLP塊，每個MLP塊對應一個記憶層級，塊之間通過“信息傳遞門”連接，形成一條從“高頻短期記憶”到“低頻長期記憶”的連續鏈：

高頻MLP塊（如每10步更新一次）：對應“短期記憶”，負責存儲即時輸入的細節信息（如句子中的具體詞匯、語法結構）。例如在文本簡化任務中，高頻MLP塊會記住“當前句子中的復雜詞匯（如‘晦澀’）需要替換為簡單詞匯（如‘難懂’）”；
中頻MLP塊（如每100步更新一次）：對應“中期記憶”，負責整合高頻塊的細節信息，提取通用規律（如“‘晦澀’‘深奧’‘艱深’都屬于需要簡化的詞匯，可映射到‘難懂’‘難理解’等簡單詞”）；
低頻MLP塊（如每1000步更新一次）：對應“長期記憶”，負責沉淀中頻塊的規律，形成核心知識（如“文本簡化的核心是將超綱詞匯替換為常用詞匯，將復雜句式拆分為簡單句”）；
信息傳遞門：控制不同頻率塊之間的信息流動——高頻塊的信息會定期“匯總”到中頻塊，中頻塊的規律會“提煉”到低頻塊，同時低頻塊的核心知識會“指導”高頻塊的即時處理（如判斷當前詞匯是否需要簡化）。

論文中給出的CMS結構公式為：

其中（頻率遞減），每個的參數每步更新一次（為更新周期）。例如時，高頻MLP每10步更新一次，低頻MLP每100步更新一次（假設）。

3. 信息流轉機制：避免“記憶斷層”與“災難性遺忘”

傳統模型的記憶斷層問題，本質是“短期記憶無法轉化為長期記憶”——例如Transformer的注意力機制無法將當前上下文的信息寫入MLP層參數，導致模型無法記住“新學到的詞匯含義”。而CMS通過“雙向信息流轉”解決這一問題：

自下而上（短期→長期）：高頻塊每更新次后，會計算“信息重要性分數”（基于該信息對任務損失的貢獻），將分數高于閾值的信息“寫入”中頻塊；中頻塊同理，將重要信息提煉后寫入低頻塊。例如在持續學習任務中，模型新學到的“醫學術語含義”會先存儲在高頻塊，經過多次驗證其重要性后，逐步傳遞到中頻、低頻塊，最終成為長期知識；
自上而下（長期→短期）：低頻塊的核心知識會通過“指導向量”影響高頻塊的處理——例如低頻塊存儲的“文本簡化規則”會生成一個指導向量，告訴高頻塊“當前句子中的‘心肌梗死’需要替換為‘心梗’”，避免高頻塊因信息有限而做出錯誤判斷。

這種雙向流轉機制，讓新信息能“穩步沉淀”（而非瞬間丟失或覆蓋），同時舊知識能“指導新處理”（而非被遺忘）。論文中提到，CMS在持續學習任務（分5個階段學習不同領域文本）中，相比傳統模型，知識保留率提升了75%，且新領域任務的準確率僅比單任務訓練低3.1個百分點——這正是“連續記憶”的價值：既不忘記過去，也能學好現在。

4. CMS與傳統記憶系統的對比

對比維度	傳統記憶系統（如Transformer）	NL連續記憶系統（CMS）
記憶層級	二元（短期注意力+長期MLP）	多層連續（高頻→中頻→低頻MLP）
更新頻率	統一（所有參數同頻率更新）	分層（頻率隨層級遞減）
信息流轉	單向（短期無法寫入長期）	雙向（短期→長期沉淀，長期→短期指導）
核心問題解決	上下文窗口有限、易遺忘	長上下文處理、持續學習
類腦模擬程度	低（無分層記憶機制）	高（模擬大腦記憶鞏固過程）

三大創新如何重構AI的“學習能力”

NL范式的三大核心創新，本質是對深度學習“學習機制”的全面重構：

深度優化器讓“參數更新”從“機械執行”變為“智能預判”，解決了“訓練效率與穩定性”的問題；
自修改序列模型讓“更新規則”從“人工定義”變為“自主學習”，解決了“模型適配性與進化性”的問題；
連續記憶系統讓“信息存儲”從“二元割裂”變為“多層連續”，解決了“持續學習與記憶保留”的問題。

這三大創新共同構建了一個“類腦”的智能系統——就像人類能通過經驗優化學習方法、能根據任務調整策略、能有序存儲與提取記憶一樣，基于NL的模型也具備了“主動學習、自我進化、分層記憶”的能力。論文中的HOPE模型正是融合了這三大創新，才在語言建模、常識推理、持續學習等任務中超越傳統Transformer，為深度學習的下一階段發展提供了清晰的技術路徑。

04、HOPE模型：NL范式的落地標桿

將自修改序列模型與連續記憶系統結合，研究團隊打造了HOPE架構——這個名字寓意著“治愈”大模型的遺忘癥，帶來持續學習的希望。

從結構上看，HOPE與Transformer有明顯區別：它沒有固定的“注意力+MLP”堆疊結構，而是通過層級化的聯想記憶模塊和連續記憶鏈，動態處理不同時間尺度的信息。

在實驗中，HOPE展現出穩定且領先的性能：

在語言建模任務中，1.3B參數的HOPE在Wiki、LAMBADA等數據集上的困惑度（perplexity）低于Transformer++、RetNet等主流模型；在常識推理任務（如PIQA、HellaSwag、ARC）中，HOPE的平均準確率達到57.23%，超過了 Titans、DeltaNet等強基線模型。更重要的是，在持續學習和長上下文推理任務中，HOPE的優勢更加明顯——它能高效吸收新知識，同時不遺忘已有能力，這正是NL范式“多時間尺度更新”的核心價值體現。

05、為什么說NL是“Transformer之后的下一個方向”？

Transformer的核心是注意力機制，解決了“并行計算+長距離依賴”的問題；而NL的核心是“層級化優化+連續記憶”，解決了“持續學習+動態適應”的問題。這兩大范式的定位完全不同：Transformer是“高效的特征提取器”，而NL是“智能的自主學習者”。

對于AI從業者來說，NL范式的啟示尤為深刻：

不要再盲目追求參數規模，層級化的優化設計可能帶來更高效的能力提升；
模型的“記憶管理”將成為未來研究的核心方向，如何讓模型像人類一樣高效存儲、提取和更新知識，是突破當前瓶頸的關鍵；
優化器、架構、記憶系統的深度融合，將取代“架構設計+獨立優化”的傳統模式。

當然，NL范式并非完美——它的理論復雜度較高，工程實現難度大于Transformer，而且目前的實驗主要集中在語言任務上，在計算機視覺、多模態等領域的表現還有待驗證。但不可否認的是，NL為深度學習提供了一個全新的視角，讓我們從“如何設計更復雜的架構”轉向“如何讓模型更智能地學習”。

06、結語

對于開發者而言，NL范式的落地可能不需要從零開始——我們可以先從優化器入手，引入深度記憶機制；或者在現有模型中加入層級化的記憶模塊，逐步探索NL的應用場景。而對于研究人員來說，NL打開了一扇新的大門：如何進一步細化記憶層級？如何動態調整模塊的更新頻率？如何將NL與多模態、強化學習結合？這些問題都值得深入探索。

正如《Attention is All You Need》開啟了Transformer時代，《Nested Learning》或許正在開啟一個“類腦自主學習”的新時代。大模型的“遺忘癥”終將被治愈，而NL范式，正是實現這一目標的關鍵鑰匙。

責任編輯：龐桂玉來源： AI前沿洞察工坊

Google NL范式 AI架構大模型

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看