国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Google NIPS 2025重磅:NL范式打破Transformer瓶頸,下一代AI架構?

人工智能
從Transformer到NL,深度學習正在從“數據驅動的特征學習”向“類腦驅動的自主學習”演進。HOPE模型的成功證明,模擬人類大腦的層級化記憶與多時間尺度更新機制,是解決大模型“順行性遺忘癥”的有效路徑。

2017年,《Attention is All You Need》一文開創了Transformer時代,徹底改變了深度學習的技術路徑。時隔八年,Google Research發表在NeurIPS 2025的《Nested Learning: The Illusion of Deep Learning Architectures》被業界戲稱為“Attention is All You Need V2”,提出的嵌套學習(Nested Learning,NL)范式,直指當前大模型的核心痛點——像患上順行性遺忘癥一樣,無法持續學習新知識。這篇論文不僅從理論上重構了深度學習的底層邏輯,更通過HOPE模型給出了可落地的解決方案。

論文地址:https://openreview.net/pdf?id=nbMeRvNb7A

01、大模型的“遺忘困境”:為何預訓練后再難成長?

用過ChatGPT、文心一言等大模型的人都有過類似體驗:它們能熟練運用預訓練階段學到的知識,但面對新領域、新信息時,要么需要重新微調(成本極高),要么只能依賴有限的上下文窗口臨時“記憶”,無法真正將新知識內化為長期能力。這本質上就是大模型的“順行性遺忘癥”——如同大腦海馬體受損的患者,無法將短期記憶轉化為長期記憶。

這種困境的根源的在于傳統深度學習的兩大局限:

一方面,模型結構是靜態的”。Transformer等經典架構依賴層堆疊設計,預訓練完成后參數基本固定,后續只能在原有框架內做有限調整。增加層數或擴大參數規模,不僅會遭遇邊際效益遞減,還可能導致訓練低效、泛化能力下降等問題。更關鍵的是,這種扁平式結構無法模擬人類大腦“多時間尺度更新”的特性——我們的大腦既能快速響應即時信息,又能緩慢沉淀長期經驗,而大模型的所有參數都遵循同一更新節奏,難以兼顧靈活性與穩定性。

另一方面,記憶系統是割裂的”。現有模型的記憶要么局限于上下文窗口內的短期信息(注意力機制負責),要么固化在MLP層的長期參數中(預訓練階段存儲),缺乏中間過渡的記憶層級。就像把所有東西要么隨手拿著,要么鎖進保險柜,沒有抽屜、書架這樣的分層存儲空間,導致新信息難以有序整合,舊知識又容易被覆蓋遺忘。

而人類大腦的持續學習能力,恰恰源于其精妙的記憶管理機制:通過“在線鞏固”(實時將短期記憶轉化為長期記憶)和“離線鞏固”(睡眠中重組強化記憶)兩個過程,結合不同腦電波頻率(如 Delta 波、Theta 波、Alpha 波、Beta 波和 Gamma 波)的多時間尺度更新,實現知識的動態積累。這正是NL范式的靈感來源——讓模型像大腦一樣,具備分層、動態的學習與記憶能力。

圖片

02、嵌套學習(NL):把模型變成“多層級優化系統”

NL范式的核心 insight 非常簡潔:深度學習模型不應是固定架構+獨立算法的扁平組合,而應是由多個嵌套、并行的優化問題構成的復雜系統。每個優化問題都有自己的“上下文流”和更新頻率,如同大腦中不同功能的神經模塊,各司其職又協同工作。

圖片

先搞懂:什么是“聯想記憶”?

NL范式的理論基礎是“聯想記憶”——這是神經心理學中一個核心概念,指建立并提取事件之間關聯的能力。在NL中,所有深度學習模塊(包括優化器、注意力層、MLP)本質上都是“聯想記憶模塊”,它們的核心任務是:通過最小化某個目標函數,將輸入的“鍵”(可以是tokens、梯度、子序列等)映射到對應的“值”,并把這種映射關系壓縮到參數中。

簡單來說,傳統模型的訓練是“單一目標下的參數更新”,而NL視角下的訓練是“多個聯想記憶模塊的協同優化”。比如我們常用的動量梯度下降(SGD with Momentum),在NL框架下就是一個雙層優化系統:內層記憶模塊負責壓縮歷史梯度信息,外層模塊則利用這些信息更新模型主參數,這就像大腦中“快速反應”與“慢速沉淀”的協作過程。

下面用一個列表來展示各個概念:

心理學概念

神經科學解釋

計算對應

記憶(memory)

突觸權重的瞬時變化(LTP/LTD)

一次神經更新(參數的一次變化)

學習(learning)

把“有效”的記憶保留下來

獲得“有效”記憶的過程(優化目標),即優化目標讓 Δθ 朝著降低損失的方向累積

聯想記憶

看到“鑰匙”就能想起“內容”

一個算子M:KV,把“鍵”映射到“值”

記憶形成

突觸可塑性機制(如NMDA受體介導的LTP/LTD)將短期電位變化轉化為長期突觸強度改變

最小化L(M(K),V)的優化過程

鍵/值

感覺輸入的特征表示(如視覺皮層對邊緣的響應)/與鍵關聯的存儲內容(如海馬體中場景記憶的完整表征)

可以是 tokens、梯度、子序列、圖像塊等任意“事件”

NL的關鍵創新:多時間尺度與層級化

NL范式最具革命性的設計,是引入了“更新頻率”來劃分模塊層級:

  • 高頻模塊:像大腦的視覺皮層,快速響應輸入數據,實時更新(比如處理即時上下文的注意力模塊);
  • 低頻模塊:像大腦的前額葉皮層,緩慢整合信息,長期沉淀(比如存儲核心知識的MLP層);
  • 同級模塊:更新頻率相同且相互獨立,如同大腦中并行工作的不同感官處理通道。

這種設計直接破解了傳統模型的痛點:不再依賴堆層擴參來提升能力,而是通過層級化的優化的過程,讓模型在不同抽象層面學習知識。更有趣的是,論文指出,Transformer其實只是NL的“簡化版”——它的線性層本質上是NL中“單一頻率更新”的特例,完全沒有發揮多層級協同的優勢。

03、NL范式:三大核心創新

在嵌套學習(NL)范式提出之前,深度學習模型長期受限于“靜態架構+固定算法”的瓶頸——優化器機械執行更新、模型無法自主適配新數據、記憶系統割裂導致遺忘。而NL通過深度優化器、自修改序列模型、連續記憶系統三大核心創新,構建了一套能“主動學習、自我進化、分層記憶”的智能系統。以下從技術原理、實現細節、優勢對比三個維度,對這三大創新進行深度拆解,讓讀者清晰理解其突破所在。

深度優化器:從“固定公式”到“記憶預判”,優化器的“智能升級”

傳統優化器(如Adam、SGD)本質是“梯度處理器”——僅根據當前梯度的固定規則(如動量累加、自適應學習率)更新參數,既無法記憶歷史梯度的規律,也不能預判梯度的未來變化。而NL視角下的“深度優化器”,將優化器本身設計成一個聯想記憶模塊,讓其具備“學習梯度規律、動態調整策略”的能力,核心突破體現在三個層面:

1. 用MLP替代線性記憶:捕捉梯度的“非線性規律”

傳統優化器對歷史梯度的處理是“線性的”——例如SGD with Momentum通過簡單的加權平均(圖片)積累梯度,無法捕捉梯度隨訓練進程變化的復雜非線性模式(如梯度突然增大、震蕩衰減等)。

深度優化器則用多層感知機(MLP)替代線性動量項,將歷史梯度序列作為MLP的輸入,讓優化器自主學習梯度的非線性關聯。具體來說:

  • 輸入層:接收最近K步的梯度值(如圖片)、當前參數狀態、損失變化率等特征;
  • 隱藏層:通過激活函數(如ReLU、GELU)學習梯度的高階關聯(例如“當連續3步梯度震蕩幅度小于1e-5時,需減小學習率”);
  • 輸出層:輸出當前步的優化更新量(而非固定公式計算的動量值)。

這種設計的優勢在于:傳統優化器的“線性記憶”只能處理簡單的梯度趨勢,而MLP的“非線性記憶”能適配復雜任務(如大語言模型訓練中梯度的劇烈波動、圖像生成任務中梯度的階段性變化),避免因梯度規律突變導致的訓練停滯。

2. 預條件化技術:讓優化器“看懂梯度性質”

傳統優化器對所有參數的梯度“一視同仁”——例如Adam用同一套β1、β2參數處理不同層的梯度(如Transformer的注意力層與MLP層梯度差異顯著),導致部分參數更新過快(易發散)、部分參數更新過慢(收斂停滯)。

深度優化器通過預條件化(Preconditioning) 技術,讓優化器提前“分辨梯度性質”,為不同參數定制更新策略:

  • 核心邏輯:在梯度輸入MLP之前,先對梯度進行“特征編碼”——用一個小型子網絡(或統計模塊)分析梯度的“屬性”,如梯度的方差(判斷參數是否接近最優解)、梯度與參數的相關性(判斷參數對任務的重要性)、梯度的稀疏性(判斷參數是否處于“平緩區域”);
  • 定制更新:將編碼后的梯度屬性(如“高方差+強相關性”“低方差+弱相關性”)與梯度值一起輸入MLP,讓MLP為不同屬性的梯度輸出差異化更新量。例如:
  • 對“高方差+強相關性”的梯度(如預訓練初期的注意力層參數),輸出較大的更新步長,加速收斂;
  • 對“低方差+弱相關性”的梯度(如微調階段的偏置參數),輸出較小的更新步長,避免過擬合。

論文中提到,基于預條件化的深度優化器在語言建模任務中,相比傳統Adam,收斂速度提升了30%,且最終困惑度(Perplexity)降低了8%-12%——這正是因為優化器能“按需調整”,不再對所有梯度“一刀切”。

3. 非線性輸出變換:突破“更新量的線性局限”

傳統優化器的更新量是“線性生成”的——例如SGD的更新量是梯度與學習率的乘積(圖片),Adam的更新量是梯度除以方差平方根后與學習率的乘積,本質都是線性運算,無法應對“梯度小但需要大幅更新”或“梯度大但需要謹慎更新”的場景。

深度優化器在MLP輸出后引入非線性變換函數,進一步擴展更新量的表達能力:

  • 常用變換:如牛頓-舒爾茨迭代(Newton-Schulz)、門控激活(Gated Activation)等。以牛頓-舒爾茨變換為例,它能通過迭代計算梯度的“近似逆矩陣”,讓更新量自動適配參數的局部曲率——在損失函數的“平緩區域”(曲率小),放大更新量以加速收斂;在“陡峭區域”(曲率大),縮小更新量以避免震蕩;
  • 實例效果:論文中采用“MLP+牛頓-舒爾茨變換”的深度優化器,在語法錯誤糾正(GEC)任務中,相比傳統優化器,訓練穩定性提升顯著,且最終模型在測試集上的準確率提高了4.2個百分點。

深度優化器與傳統優化器的核心差異

對比維度

傳統優化器(如Adam、SGD)

NL深度優化器

梯度記憶方式

線性加權(如動量項mtm_tmt

MLP非線性記憶(學習梯度關聯規律)

梯度處理策略

統一規則(對所有梯度一視同仁)

預條件化(按梯度屬性定制策略)

更新量生成方式

線性運算(梯度×學習率等)

非線性變換(適配局部曲率)

核心能力

被動執行更新

主動學習更新策略

自修改序列模型:從“人工調參”到“自我適配”,模型的“進化能力”

傳統序列模型(如Transformer、RNN)的“更新規則”完全由人工定義——例如學習率衰減策略(Step Decay、Cosine Decay)、梯度裁剪閾值(如1.0)、正則化強度(如Weight Decay=0.01),這些參數在訓練前固定,無法根據數據特點動態調整。而NL提出的“自修改序列模型”,讓模型學會“自主設計更新規則”,實現“邊學數據邊學如何學習”的元認知能力,核心技術路徑分為三步:

1. 用“更新算法參數化”替代“人工規則”

傳統模型的更新規則是“硬編碼”的——例如“每1000步學習率乘以0.9”是寫死的邏輯,無法根據數據分布變化(如從通用文本切換到專業領域文本)調整。自修改模型的第一步,是將更新規則“參數化”,即用一個小型神經網絡(稱為“更新控制器”)來生成更新所需的關鍵參數:

  • 參數化對象:包括學習率、動量系數、權重衰減系數、梯度裁剪閾值等;
  • 控制器輸入:模型當前的損失值、損失變化率、梯度 norms、輸入數據的分布特征(如文本的詞頻分布、句子長度分布);
  • 控制器輸出:針對當前狀態的最優更新參數(如學習率=2.5e-4、動量系數=0.92、權重衰減=0.008)。

例如在句子融合任務中,當輸入數據從“短句子融合”切換到“長句子融合”時,數據的復雜度提升,模型損失會突然增大。此時更新控制器會自動將學習率降低(從3e-4降至1.2e-4)、權重衰減增大(從0.005增至0.012),避免模型因數據復雜度突變而發散——這一過程完全無需人工干預,是模型自主判斷的結果。

2. 用“自監督信號”訓練更新控制器

更新控制器的“學習目標”是“讓模型在當前任務上的性能最優”,但直接優化這一目標會導致訓練不穩定(因為控制器的輸出會影響模型主參數的更新,進而影響控制器的輸入,形成循環依賴)。論文中采用“自監督信號”解決這一問題:

  • 信號設計:將“模型在驗證集上的性能變化”作為控制器的損失信號。例如,若控制器輸出的更新參數讓模型在驗證集上的準確率提升了2%,則給控制器一個正向獎勵;若準確率下降了1%,則給一個負向懲罰;
  • 訓練方式:采用“雙階段訓練”——第一階段固定控制器,訓練模型主參數,收集“更新參數與性能變化”的關聯數據;第二階段固定模型主參數,用收集的數據訓練控制器,讓其學習“什么樣的更新參數對應什么樣的性能變化”;之后交替迭代,逐步優化控制器與主參數。

這種訓練方式的關鍵在于“解耦循環依賴”,讓控制器能穩定學習“有效更新策略”。論文中提到,自修改模型在持續學習任務(如分階段學習不同領域的文本)中,相比傳統模型,災難性遺忘(Catastrophic Forgetting)程度降低了60%以上——因為控制器能在切換任務時,自動調整更新規則,保護已學知識不被覆蓋。

3. 用“動態架構調整”實現“結構自優化”

除了更新參數,自修改模型還能自主調整“模型結構”——例如在Transformer中,自主決定注意力頭的數量、MLP層的隱藏單元數、殘差連接的權重等,突破傳統模型“結構固定”的局限:

  • 結構參數化:將架構參數(如注意力頭數、MLP隱藏維度)表示為可學習的變量,由“架構控制器”生成;
  • 調整邏輯:架構控制器根據輸入數據的復雜度(如句子長度、詞匯多樣性)和模型當前的性能瓶頸(如注意力矩陣稀疏度、MLP激活值分布),動態調整架構。例如:
  • 處理長文本時,自動增加注意力頭數(從8頭增至12頭),以捕捉更多長距離依賴;
  • 處理簡單文本時,自動減少MLP隱藏維度(從2048降至1024),以降低計算成本。

在1.3B參數的HOPE模型中,自修改序列模型的架構調整功能讓其在長上下文推理任務(如處理5120token的文本)中,相比固定結構的Transformer,推理速度提升了1.8倍,且準確率僅下降0.5個百分點——這正是“結構按需優化”的優勢:不浪費算力在簡單場景,也不吝嗇資源在復雜場景。

連續記憶系統(CMS):從“二元割裂”到“多層連續”,記憶的“類腦管理”

傳統模型的記憶系統是“二元對立”的——短期記憶(如Transformer的注意力機制)僅能存儲當前上下文窗口內的信息(通常為512-4096token),長期記憶(如MLP層參數)僅能存儲預訓練階段的固定知識,二者之間缺乏“中間過渡層”,導致新信息無法有序沉淀(要么丟失,要么覆蓋舊知識)。NL提出的“連續記憶系統(CMS)”,模擬人類大腦“瞬時記憶→短期記憶→長期記憶”的分層存儲機制,用多頻率更新的MLP塊構建“記憶鏈”,實現信息的平滑流轉。

1. 傳統模型記憶系統的二元對立

以Transformer為例, 注意力能捕捉當前上下文的臨時關聯(像即時草稿),卻沒有 “寫入” 長期參數的通道,而 MLP 權重作為長期知識載體,訓練后就完全凍結(像只讀硬盤),導致新信息無法持續積累,本質是 “記憶感知” 與 “知識存儲” 的斷層。例如:

  • 注意力看到新詞“apple”在當前句子里指“公司”,但它只能把這一信息保存在注意力矩陣 里。
  • 這個矩陣不是模型參數,它隨著輸入變化而實時生成,推理結束就被丟棄。
  • 真正存儲知識的MLP 權重在訓練后就凍結了,無法把“apple=公司”這條新知識寫進去。
  • 結果:下一句再出現“apple”,模型又只能重新猜,無法利用上次學到的含義

2. CMS的核心設計:多頻率MLP塊與“記憶鏈”結構

CMS的本質是一組“更新頻率遞減”的MLP塊,每個MLP塊對應一個記憶層級,塊之間通過“信息傳遞門”連接,形成一條從“高頻短期記憶”到“低頻長期記憶”的連續鏈:

  • 高頻MLP塊(如每10步更新一次):對應“短期記憶”,負責存儲即時輸入的細節信息(如句子中的具體詞匯、語法結構)。例如在文本簡化任務中,高頻MLP塊會記住“當前句子中的復雜詞匯(如‘晦澀’)需要替換為簡單詞匯(如‘難懂’)”;
  • 中頻MLP塊(如每100步更新一次):對應“中期記憶”,負責整合高頻塊的細節信息,提取通用規律(如“‘晦澀’‘深奧’‘艱深’都屬于需要簡化的詞匯,可映射到‘難懂’‘難理解’等簡單詞”);
  • 低頻MLP塊(如每1000步更新一次):對應“長期記憶”,負責沉淀中頻塊的規律,形成核心知識(如“文本簡化的核心是將超綱詞匯替換為常用詞匯,將復雜句式拆分為簡單句”);
  • 信息傳遞門:控制不同頻率塊之間的信息流動——高頻塊的信息會定期“匯總”到中頻塊,中頻塊的規律會“提煉”到低頻塊,同時低頻塊的核心知識會“指導”高頻塊的即時處理(如判斷當前詞匯是否需要簡化)。

論文中給出的CMS結構公式為:

圖片

其中圖片(頻率遞減),每個圖片的參數每圖片步更新一次(圖片為更新周期)。例如圖片時,高頻MLP每10步更新一次,低頻MLP每100步更新一次(假設圖片)。

3. 信息流轉機制:避免“記憶斷層”與“災難性遺忘”

傳統模型的記憶斷層問題,本質是“短期記憶無法轉化為長期記憶”——例如Transformer的注意力機制無法將當前上下文的信息寫入MLP層參數,導致模型無法記住“新學到的詞匯含義”。而CMS通過“雙向信息流轉”解決這一問題:

  • 自下而上(短期→長期):高頻塊每更新圖片次后,會計算“信息重要性分數”(基于該信息對任務損失的貢獻),將分數高于閾值的信息“寫入”中頻塊;中頻塊同理,將重要信息提煉后寫入低頻塊。例如在持續學習任務中,模型新學到的“醫學術語含義”會先存儲在高頻塊,經過多次驗證其重要性后,逐步傳遞到中頻、低頻塊,最終成為長期知識;
  • 自上而下(長期→短期):低頻塊的核心知識會通過“指導向量”影響高頻塊的處理——例如低頻塊存儲的“文本簡化規則”會生成一個指導向量,告訴高頻塊“當前句子中的‘心肌梗死’需要替換為‘心梗’”,避免高頻塊因信息有限而做出錯誤判斷。

這種雙向流轉機制,讓新信息能“穩步沉淀”(而非瞬間丟失或覆蓋),同時舊知識能“指導新處理”(而非被遺忘)。論文中提到,CMS在持續學習任務(分5個階段學習不同領域文本)中,相比傳統模型,知識保留率提升了75%,且新領域任務的準確率僅比單任務訓練低3.1個百分點——這正是“連續記憶”的價值:既不忘記過去,也能學好現在。

4. CMS與傳統記憶系統的對比

對比維度

傳統記憶系統(如Transformer)

NL連續記憶系統(CMS)

記憶層級

二元(短期注意力+長期MLP)

多層連續(高頻→中頻→低頻MLP)

更新頻率

統一(所有參數同頻率更新)

分層(頻率隨層級遞減)

信息流轉

單向(短期無法寫入長期)

雙向(短期→長期沉淀,長期→短期指導)

核心問題解決

上下文窗口有限、易遺忘

長上下文處理、持續學習

類腦模擬程度

低(無分層記憶機制)

高(模擬大腦記憶鞏固過程)

三大創新如何重構AI的“學習能力”  

NL范式的三大核心創新,本質是對深度學習“學習機制”的全面重構:

  • 深度優化器讓“參數更新”從“機械執行”變為“智能預判”,解決了“訓練效率與穩定性”的問題;
  • 自修改序列模型讓“更新規則”從“人工定義”變為“自主學習”,解決了“模型適配性與進化性”的問題;
  • 連續記憶系統讓“信息存儲”從“二元割裂”變為“多層連續”,解決了“持續學習與記憶保留”的問題。

這三大創新共同構建了一個“類腦”的智能系統——就像人類能通過經驗優化學習方法、能根據任務調整策略、能有序存儲與提取記憶一樣,基于NL的模型也具備了“主動學習、自我進化、分層記憶”的能力。論文中的HOPE模型正是融合了這三大創新,才在語言建模、常識推理、持續學習等任務中超越傳統Transformer,為深度學習的下一階段發展提供了清晰的技術路徑。

04、HOPE模型:NL范式的落地標桿

將自修改序列模型與連續記憶系統結合,研究團隊打造了HOPE架構——這個名字寓意著“治愈”大模型的遺忘癥,帶來持續學習的希望。

從結構上看,HOPE與Transformer有明顯區別:它沒有固定的“注意力+MLP”堆疊結構,而是通過層級化的聯想記憶模塊和連續記憶鏈,動態處理不同時間尺度的信息。

圖片

在實驗中,HOPE展現出穩定且領先的性能:

在語言建模任務中,1.3B參數的HOPE在Wiki、LAMBADA等數據集上的困惑度(perplexity)低于Transformer++、RetNet等主流模型;在常識推理任務(如PIQA、HellaSwag、ARC)中,HOPE的平均準確率達到57.23%,超過了 Titans、DeltaNet等強基線模型。更重要的是,在持續學習和長上下文推理任務中,HOPE的優勢更加明顯——它能高效吸收新知識,同時不遺忘已有能力,這正是NL范式“多時間尺度更新”的核心價值體現。

圖片

05、為什么說NL是“Transformer之后的下一個方向”?

Transformer的核心是注意力機制,解決了“并行計算+長距離依賴”的問題;而NL的核心是“層級化優化+連續記憶”,解決了“持續學習+動態適應”的問題。這兩大范式的定位完全不同:Transformer是“高效的特征提取器”,而NL是“智能的自主學習者”。

對于AI從業者來說,NL范式的啟示尤為深刻:

  • 不要再盲目追求參數規模,層級化的優化設計可能帶來更高效的能力提升;
  • 模型的“記憶管理”將成為未來研究的核心方向,如何讓模型像人類一樣高效存儲、提取和更新知識,是突破當前瓶頸的關鍵;
  • 優化器、架構、記憶系統的深度融合,將取代“架構設計+獨立優化”的傳統模式。

當然,NL范式并非完美——它的理論復雜度較高,工程實現難度大于Transformer,而且目前的實驗主要集中在語言任務上,在計算機視覺、多模態等領域的表現還有待驗證。但不可否認的是,NL為深度學習提供了一個全新的視角,讓我們從“如何設計更復雜的架構”轉向“如何讓模型更智能地學習”。

06、結語  

從Transformer到NL,深度學習正在從“數據驅動的特征學習”向“類腦驅動的自主學習”演進。HOPE模型的成功證明,模擬人類大腦的層級化記憶與多時間尺度更新機制,是解決大模型“順行性遺忘癥”的有效路徑。

對于開發者而言,NL范式的落地可能不需要從零開始——我們可以先從優化器入手,引入深度記憶機制;或者在現有模型中加入層級化的記憶模塊,逐步探索NL的應用場景。而對于研究人員來說,NL打開了一扇新的大門:如何進一步細化記憶層級?如何動態調整模塊的更新頻率?如何將NL與多模態、強化學習結合?這些問題都值得深入探索。

正如《Attention is All You Need》開啟了Transformer時代,《Nested Learning》或許正在開啟一個“類腦自主學習”的新時代。大模型的“遺忘癥”終將被治愈,而NL范式,正是實現這一目標的關鍵鑰匙。


責任編輯:龐桂玉 來源: AI前沿洞察工坊
相關推薦

2025-01-03 09:24:10

模型架構論文

2013-07-27 21:28:44

2025-11-04 03:20:00

SpringAIAgents

2022-07-06 11:38:40

人工智能AI

2025-05-26 00:00:00

GoogleAIVeo 3

2021-05-22 23:01:21

人工智能網絡安全

2025-06-09 08:42:23

2025-03-28 05:00:00

Cursor AI原生AI

2020-03-12 18:12:10

Google FuchAndroid移動應用

2013-06-27 11:21:17

2025-11-13 17:35:18

微軟AgenticAI 系統

2024-02-07 09:00:00

2024-05-14 08:03:31

SaaS 服務云原生AI 一體架構

2015-10-19 17:15:33

網絡架構/華三

2025-03-25 10:54:08

2020-09-27 17:27:58

邊緣計算云計算技術

2020-09-16 10:28:54

邊緣計算云計算數據中心

2013-09-09 16:28:36

2023-06-25 07:53:33

AI生成式模型
點贊
收藏

51CTO技術棧公眾號

婷婷精品在线观看| 国产精品日韩在线| www亚洲人| 色av综合在线| 少妇性饥渴无码a区免费| 中文字幕国产一区二区| 久久精品免费网站| 欧美性猛交一区二区三区精品| 男人艹女人在线观看| 亚洲色图另类专区| 五月婷婷导航| 欧美国产欧美综合| 五月婷婷激情久久| 亚洲欧洲国产日本综合| 国产精品三级a三级三级午夜| 亚洲第一福利一区| 青青草在线播放| 欧美日韩一区二区精品| 韩国三级av在线免费观看| 日本久久精品电影| 黄色小网站在线观看| 日韩三级在线免费观看| 写真福利精品福利在线观看| 精品久久久91| 琪琪久久久久日韩精品| 国产精品国模在线| 亚洲深深色噜噜狠狠爱网站| 98国产高清一区| 免费不卡在线观看| 免费一级淫片aaa片毛片a级| 91丨九色丨蝌蚪丨老版| wwwcom羞羞网站| 欧美日韩视频在线一区二区| 精品国产免费人成网站| 国产狼人综合免费视频| 久久一日本道色综合久久| 国产成人综合一区| 亚洲成av人综合在线观看| 伊伊综合在线| 国产69精品99久久久久久宅男| 亚洲1区在线| 55夜色66夜色国产精品视频| 一区二区三区国产盗摄| ts人妖交友网站| 亚洲欧美日韩一区二区三区在线| 国产成人综合在线观看| 天堂资源最新在线| 色综合久综合久久综合久鬼88| 国产精品婷婷| 快色在线观看| 久久精品久久久久| 久久国产精品免费| 国产中文字幕在线视频| 久久99精品国产99久久6尤物| 三级在线观看一区二区| 深夜福利免费在线观看| 欧洲美女免费图片一区| 国产欧美日本一区二区三区| 日韩免费大片| 成人激情av| 国产精品情趣视频| 男女在线视频| 成人网欧美在线视频| eeuss国产一区二区三区| 成年人在线视频| 国产91精品视频在线观看| 国产一区二三区| 日本福利专区在线观看| 欧美一级电影免费在线观看| 国产经典欧美精品| 国产激情视频在线观看| 日产精品99久久久久久| 国产91精品一区二区麻豆网站| 91啦中文在线| 国产精品国内视频| 成人激情校园春色| 欧美激情网站| 免费毛片一区二区三区久久久| 综合网在线视频| 亚洲人体在线| 69精品丰满人妻无码视频a片| 欧美另类videos死尸| 99精品美女| 激情婷婷丁香| 91国产精品视频在线| 99re这里都是精品| 日韩在线影院| 欧美性受xxxx黑人猛交88| 日韩一级高清毛片| 夜夜嗨网站十八久久| 亚州av中文字幕在线免费观看| 97视频在线观看免费| 久久久久久久久岛国免费| 日本精品在线中文字幕| 99热都是精品| 亚洲精美色品网站| 日韩高清欧美激情| 天堂亚洲精品| www.亚洲一区| 99视频精品在线| 久久综合偷偷噜噜噜色| 欧美又粗又长又爽做受| 一本色道久久88综合亚洲精品ⅰ | 免费看欧美美女黄的网站| 免费**毛片在线| 久久久一本精品99久久精品66 | 欧美a级在线观看| 一区二区视频国产| 亚洲国产欧美一区| 波多野结衣91| 国产精品一区二区美女视频免费看 | 欧美激情2020午夜免费观看| 91蜜桃免费观看视频| xvideos.蜜桃一区二区| 99视频入口| 91美女片黄在线观看游戏| 高跟丝袜一区二区三区| 精品999成人| 国产传媒在线观看| 国产黄色片免费在线观看| 欧美激情第三页| 一区二区三区四区中文字幕| 国产欧美日韩免费观看 | 日韩一区二区在线观看视频播放| 麻豆中文一区二区| 欧美色999| 激情校园亚洲图片| 成人国内精品久久久久一区| 欧美性猛片aaaaaaa做受| 免费日韩精品中文字幕视频在线| 国产一二三在线| 黄色三级视频在线| 91夜夜未满十八勿入爽爽影院| 欧美日韩精品一区二区三区| 久久se这里有精品| caoporn成人免费视频在线| 影音先锋另类| 五月婷婷综合色| 久久久久九九九九| 在线一区二区三区做爰视频网站| 青青草国产精品亚洲专区无| 96视频在线观看欧美| 在线成年人视频| 亚洲成年人专区| 97视频在线观看亚洲| 欧美日韩一区三区四区| 国产伦精品一区二区三区视频青涩| 都市激情亚洲| 性xxxfreexxxx性欧美| 亚洲an天堂an在线观看| 久久香蕉综合色| 国内精品久久久久久影视8| 欧美伊人久久大香线蕉综合69| 粉嫩蜜臀av国产精品网站| 日韩影院二区| 福利视频亚洲| 一级毛片视频在线| 国产裸体免费无遮挡| 日韩中文字幕一区| 欧美中文在线观看国产| 精品国产污污免费网站入口 | 国产精品18久久久久久麻辣| 欧美精品一区二区三区在线| 亚洲人成在线播放网站岛国| 日韩不卡一二三区| 亚洲系列另类av| 日本在线精品| a在线免费观看| 福利资源在线久| 91精品国产91久久久久麻豆 主演| 99国精产品一二二线| 欧美男插女视频| 日韩限制级电影在线观看| 亚洲中国最大av网站| 99精品国产99久久久久久白柏| 亚洲深爱激情| 国产精品免费不| 国产精品va视频| gogo高清在线播放免费| 欧美在线一卡| av五月婷婷| 欧美黑人又粗又大又爽免费| 中文字幕av久久| 久久婷婷开心| 国产精品成人一区二区三区| 韩国国内大量揄拍精品视频| 亚洲偷熟乱区亚洲香蕉av| 欧美一二三在线| 色伊人久久综合中文字幕| 中文字幕一区二区5566日韩| 91视频91自| 国产成人亚洲精品青草天美| 久久在线精品| 亚洲少妇自拍| 黄色工厂这里只有精品| 精品国产午夜| 日韩精品一区二区三区免费观影| 欧洲亚洲视频| 国产乱论精品| www.豆豆成人网.com|