200萬token上下文能力,并且越用越聰明!Google Research重構AI長期記憶
Transformer架構提出者,為谷歌提供基礎研究、算法與生態底座的Google Research,要讓AI擁有長期記憶。

Google Research發布的Titans架構通過在推理階段實時訓練深層神經網絡模塊,讓AI擁有了處理超過200萬token上下文的能力,并在MIRAS框架下統一了序列建模的數學理論。


Google Research推出的Titans架構與MIRAS框架通過讓模型在推理過程中實時更新參數,實現了超越GPT-4的長文本記憶能力與極高的運行效率。
打破Transformer的算力魔咒與記憶瓶頸
人工智能領域長期存在一個類似于魚和熊掌不可兼得的困境。
Transformer架構憑借注意力機制徹底改變了序列建模,它讓模型能夠回溯之前的輸入,精準地抓取相關信息。
這種機制賦予了AI強大的短期記憶和理解能力,但也帶來了一個致命的弱點:隨著輸入序列長度的增加,計算成本呈現爆發式增長。
想要讓模型理解整本小說、分析完整的基因組序列,或者處理超長的法律文檔,Transformer的資源消耗會迅速變為天文數字。
為了解決這個問題,研究界探索了線性遞歸神經網絡(RNNs)和狀態空間模型(SSMs),例如Mamba-2。
這些模型的優勢在于速度,它們將上下文壓縮成固定大小的狀態,實現了快速的線性擴展。
這種做法雖然換來了速度,卻犧牲了精度。
固定大小的壓縮像是一個容量有限的行囊,當旅途過長,新的信息不斷涌入,舊的細節就會被迫丟棄,模型無法捕捉超長序列中那些豐富而微妙的信息。
Google Research提出的Titans架構和MIRAS框架,不僅僅是修補現有模型,而是重新定義了記憶的本質。
Titans是具體的工具,一種結合了RNN速度與Transformer精度的全新架構;MIRAS則是理論藍圖,一個將不同序列模型統一起來的通用框架。
這兩者結合,讓AI擁有一種名為測試時記憶的能力。
模型不再是一個訓練好就固化的靜態系統,它能夠在運行時,根據信息的新穎程度和重要性,實時更新自己的核心記憶,無需專門的離線再訓練。
這標志著AI從被動存儲信息向主動學習和適應的轉變。
Titans架構:像大腦一樣用驚奇感學習
一個高效的學習系統需要涇渭分明又相互連接的記憶模塊,這正如人類大腦區分短期記憶和長期記憶一樣。
注意力機制擅長處理精準的短期記憶,而Titans引入了一種全新的神經長期記憶模塊。

傳統的RNN試圖將記憶塞進一個固定大小的向量或矩陣中,這限制了信息的承載量。
Titans打破了這一限制,它使用一個深度神經網絡(具體來說是多層感知機)作為記憶模塊。
這不僅僅是存儲空間的擴大,更是記憶方式的質變。
這個記憶模塊擁有極高的表達能力,能夠對海量信息進行深度總結,而不丟失關鍵的上下文。
模型不再是機械地記錄每一個字,而是在理解和合成整個故事的脈絡。
Titans最核心的機制在于它是如何決定記住什么的。
它不被動接收數據,而是主動識別并保留那些能夠連接整個輸入序列的重要關系和概念主題。
這種主動性依賴于一種被稱為驚奇度量(Surprise Metric)的機制。
在人類心理學中,我們很容易忘記那些例行公事的、意料之中的日常瑣事,但對于那些打破常規、出乎意料或者極具情感沖擊力的事件,記憶卻異常深刻。Titans借鑒了這一原理。
在Titans的運行邏輯中,驚奇度量是指模型檢測到的當前記憶與新輸入信息之間的巨大差異。
當模型接收到一個新詞,比如貓,而它當前的記憶狀態已經預期會出現一個動物詞匯時,這種差異很小,梯度(即驚奇度)就很低。
模型會認為這是一個常規信息,不需要浪費寶貴的長期記憶資源去專門存儲它。
相反,如果模型的記憶狀態正在處理一份嚴肅的財務報告,突然輸入了一張香蕉皮的圖片,這種巨大的反差會產生極高的梯度。
這個高梯度信號就是模型內部的報警器,它在數學上大聲疾呼:這是意料之外的重要信息。
于是,模型會優先將這一信息刻入長期記憶模塊。
這種利用內部誤差信號(梯度)來指導記憶更新的方法,讓Titans能夠極其高效地篩選信息。
它只選擇性地更新那些最新穎、最能打破現有上下文的信息,從而保持了整體處理過程的快速與高效。
為了進一步完善這一機制,Titans融入了兩個關鍵要素。
首先是動量(Momentum)。
模型在判斷信息重要性時,不僅看當前的瞬間驚奇,還會考量過去的驚奇積累,即最近的上下文流。
這確保了那些雖然單個看起來不那么驚人,但作為后續相關信息基礎的內容也能被捕捉到。
其次是遺忘機制(權重衰減)。
面對無限延伸的序列,任何記憶系統的容量終究是有限的。
Titans采用自適應權重衰減作為一種遺忘門,允許模型主動丟棄那些不再需要的信息,為新知識騰出空間。
MIRAS框架:序列建模的統一場論
如果我們透過現象看本質,會發現序列建模領域的每一次重大突破,從現代Transformer到最新的線性RNN,其底層邏輯驚人地一致:它們都是某種形式的高度復雜的聯想記憶模塊。
基于這一洞察,MIRAS框架應運而生。

它不再將各種模型視為互不相關的架構,而是將它們看作解決同一個問題的不同方法——即如何在不遺忘核心概念的前提下,高效地將新信息與舊記憶融合。
MIRAS通過四個關鍵的設計選擇來定義一個序列模型。
首先是記憶架構,即存儲信息的結構,它可以是向量、矩陣,也可以是像Titans那樣深度的多層感知機。
其次是注意力偏差,這是模型優化的內部學習目標,決定了模型優先關注什么。
第三是保留門,即記憶正則化器。
MIRAS將傳統的遺忘機制重新解釋為一種正則化形式,用于在學習新知識和保留舊知識之間尋找平衡。
最后是記憶算法,即用于更新記憶的具體優化算法。
現有的成功序列模型幾乎都依賴均方誤差(MSE)或點積相似度來處理偏差和保留。
這種對傳統歐幾里得幾何范式的依賴,使得模型對異常值非常敏感,同時也限制了模型的表達能力。
MIRAS超越了這一局限,它提供了一個生成式框架,引入了優化理論和統計學文獻中的豐富設計空間。
這使得研究人員可以探索非歐幾里得的目標函數和正則化方法,從而創造出全新的架構。
基于MIRAS框架,研究團隊設計了三種無注意力機制的新模型變體。
YAAD旨在降低對重大錯誤或異常值的敏感度,例如大文檔中的個別拼寫錯誤。
它使用Huber損失函數作為一種更溫和的數學懲罰,避免模型對一次性問題反應過度,從而在面對雜亂或不一致的數據時更加穩健。
MONETA則探索了更復雜、更嚴格的數學懲罰(廣義范數)。
它研究了這種更具紀律性的規則是否能帶來更強大、更穩定的長期記憶系統。
MEMORA專注于實現最佳的記憶穩定性,它強制記憶像嚴格的概率圖一樣運作。
通過這種約束,它確保每次記憶狀態更新都是受控且平衡的,從而保證了新信息整合過程的清晰與穩定。
深度記憶的力量與未來展望
通過嚴格的對比實驗,Titans及其MIRAS變體(YAAD, MONETA, MEMORA)展現出了超越Transformer++、Mamba-2和Gated DeltaNet等領先架構的實力。

這種優勢不僅體現在標準的語言建模任務(如C4, WikiText)中,在零樣本推理任務(如HellaSwag, PIQA)中,這些模型也一致表現出了更高的準確性和更低的困惑度。
困惑度是衡量大語言模型在面對一段文本時驚訝程度的指標,數值越低,說明模型的預測越準確,理解力越強。
消融研究揭示了一個關鍵發現:記憶架構的深度至關重要。
當對比大小相同但深度不同的長期記憶模塊時,更深層的記憶模塊始終能實現更低的困惑度。
更重要的是,它們展現出了更好的擴展性。隨著序列長度的大幅增加,深度記憶模塊依然能保持優異的性能,沒有出現常見的性能衰減。
在語言建模和常識推理任務中,Titans架構的表現優于同等規模的最先進線性遞歸模型和Transformer++基線。MIRAS的新變體也證明了探索非MSE優化機制的價值。值得注意的是,這些模型在提升性能的同時,依然保持了高效的并行訓練能力和快速的線性推理速度。Titans不僅僅局限于文本,在基因組建模(DNA)和時間序列預測等任務上的測試表明,這套架構具有強大的通用性。
這些新架構最顯著的優勢在于處理極端長上下文的能力。
BABILong基準測試是一項極具挑戰性的任務,要求模型在分布于超長文檔中的事實之間進行推理。

在這個高難度設定下,Titans擊敗了所有基線模型,包括參數量巨大無比的GPT-4。
盡管Titans的參數量要少得多,它卻展示了有效擴展到超過200萬token上下文窗口的能力。這意味著AI在處理海量信息時,不再需要為了速度而犧牲記憶的準確性。
Titans架構與MIRAS框架的推出,是序列建模領域的一次重大飛躍。
通過使用深度神經網絡作為記憶模塊,并讓模型在數據輸入時實時學習和記憶,這些方法徹底克服了固定大小遞歸狀態的局限。
MIRAS提供的理論統一,揭示了在線優化、聯想記憶與架構設計之間深層的內在聯系。
通過跳出標準的歐幾里得范式,這項研究為新一代序列模型打開了大門。
未來的AI模型將兼具RNN的高效與Transformer的表達力,真正從容應對長上下文時代的挑戰。

































