国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

首個基于統計學的線性注意力機制ToST,高分拿下ICLR Spotlight

人工智能 新聞
Token Statistics Transformer (ToST) 提出了一種新的注意力機制,它的時間復雜度是線性的。

本文第一作者為加州大學伯克利分校三年級博士生吳梓陽,導師為馬毅教授。吳的主要研究方向為表征學習與多模態學習。該工作由多所學校與機構的研究者共同完成,包括加州大學伯克利分校、賓夕法尼亞大學、密歇根大學、清華大學、憶生科技、香港大學、約翰·霍普金斯大學等。據悉,馬毅教授已受邀在今年四月的ICLR大會上就和此項成果相關的一系列白盒神經網絡相關工作,進行為時一小時的主題報告(Keynote)。

Transformer 架構在過去幾年中通過注意力機制在多個領域(如計算機視覺、自然語言處理和長序列任務)中取得了非凡的成就。然而,其核心組件「自注意力機制」 的計算復雜度隨輸入 token 數量呈二次方增長,導致資源消耗巨大,難以擴展到更長的序列或更大的模型。

Token Statistics Transformer (ToST) 提出了一種新的注意力機制,它的時間復雜度是線性的。通過對序列特征的統計建模,ToST 提高了序列處理任務中的效率。文章探討了基于變分編碼率縮減(Variational Rate Reduction, VRR)的框架,并通過實驗驗證了其在不同任務中的性能,通過革新傳統注意力機制,解決了這些長期困擾 Transformer 架構的效率瓶頸。

ToST 也作為 Spotlight 論文,入選了 ICLR 2025 大會。

  • 論文標題:Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction
  • 論文地址:https://arxiv.org/abs/2412.17810
  • 項目主頁:https://robinwu218.github.io/ToST/
  • 目前該工作已開源:https://github.com/RobinWu218/ToST

研究背景與動機

一直以來,自注意力機制依賴于對輸入 token 兩兩相似性的計算,這一過程雖然有效,但其資源開銷顯著;尤其當輸入 token 數量極大時,傳統注意力機制(如 Transformer 中的全局注意力)在計算復雜度和內存使用上的瓶頸問題愈發顯著。

為了應對這一挑戰,本文提出了一種基于統計學特征的注意力機制:Token Statistics Self-Attention (TSSA)。它通過避免兩兩相似性的計算,僅依賴于 token 特征的統計量,顯著降低了計算復雜度。

Token Statistics Transformer (ToST) 的架構。Token Statistics Self-Attention (TSSA) 運算符通過對投影后的 token 進行行標量化變換,從而實現了線性復雜度。

核心方法

ToST 的核心方法是通過特定的概率分布函數對輸入序列進行建模,減少冗余信息并提取關鍵特征。具體包括:

1. 統計特征提取:對序列中的每個 token 提取其統計特征。

2. 變分編碼率縮減:利用 VRR 框架對特征進行壓縮,減少信息冗余。

3. 線性復雜度實現:通過一系列優化,其計算復雜度從 O (n2) 降低為 O (n)。

ToST 的方法概述。在 CRATE 的理論基礎上,ToST 通過幾何空間的結構化特征實現 token 分組和映射。

網絡架構的推導

該團隊通過擴展先前的 CRATE 工作推導出網絡架構。CRATE 顯示,一種 Transformer 風格的架構可以通過 "白盒" 架構設計自然生成,其中網絡的每一層都旨在實現最大編碼率縮減目標 (MCR2) 的增量優化步驟。

具體來說,該團隊推導了 MCR2 目標的一個新穎的變分形式,并表明通過對該變分目標進行展開梯度下降所得到的架構會引入一種新的注意力模塊,稱為 Token Statistics Self-Attention (TSSA)。TSSA 擁有線性的計算和內存復雜度,并從根本上不同于典型的注意力架構,其后者通過計算 token 之間的兩兩相似性來實現。

關鍵公式 MCR2 目標函數定義

技術細節

1. 線性時間注意力機制:Token Statistics Self-Attention (TSSA)

通過白盒設計方法(algorithmic unrolling),TSSA 從最大編碼率減少(Maximal Coding Rate Reduction, MCR2 )的變分形式中推導而來。

傳統 Transformer 依賴于 pairwise 相似度計算,而 TSSA 則基于 token 特征的統計量構建注意力機制,其計算復雜度從 O (n2) 降低為 O (n),內存占用同樣顯著減少。

2. 創新性的網絡結構:Token Statistics Transformer (ToST)

ToST 通過將 TSSA 替代標準的自注意力模塊,不僅實現了顯著的效率提升,還增強了模型的可解釋性。

與傳統模型不同,ToST 架構中的注意力操作基于統計量的低秩投影,通過減少不必要的計算路徑,大幅優化了資源使用。

3. 理論支撐與數學推導

基于 MCR2 的變分形式,提出了一種新穎的壓縮項公式,可對大型矩陣進行有效的特征提取。

通過設計數據相關的低秩投影,TSSA 在保留關鍵信息的同時,消除了冗余方向。

實驗驗證與性能分析

實驗覆蓋了自然言語處理(NLP)、計算機視覺(CV)等多個領域的任務,包括文本分類、機器翻譯、圖像識別等。結果表明,ToST 在保證模型性能的同時,大幅降低了計算資源消耗。

1. 計算和內存的線性復雜度分析

實驗結果顯示,與現有的注意力機制相比,TSSA 的時間和內存復雜度更低。具體而言,TSSA 的復雜度為 O (pn),顯著優于傳統 Transformer 的 O (n2)。

ToST 在計算時間和內存使用上均隨序列長度實現線性擴展,使其顯著優于標準 Transformer 的效率。如下:

復雜度分析對比

在 GPU 上評估的速度和內存使用對比

2. 視覺任務性能分析

在 ImageNet-1k 等主流視覺數據集上的實驗表明,ToST 的性能可與傳統 Transformer 架構(如 ViT 和 XCiT)相媲美,同時顯著減少了模型參數量和計算開銷。

遷移學習實驗中,ToST 在 CIFAR、Oxford Flowers 等數據集上的表現進一步驗證了其在多種視覺任務中的適應性。

結果展示了與傳統 Transformer 相當的性能,同時在計算效率上顯著更高。

3. 長序列任務和語言建模

  • 長序列任務

在長序列任務基準測試(如 Long-Range Arena)中,ToST 展現出優異的長距離建模能力,其性能超越了現有 Transformer 變體。

  • 語言建模

ToST 可以擴展并適用于多種任務場景,包括因果語言建模。針對語言建模,ToST 采用了一種因果版本的 TSSA,在多個數據集上實現了高效的預測能力。此外,即使在參數規模擴大的情況下,ToST 依然保持了優異的時間和內存效率。

NLP 任務中的表現

4. 有原理支持的模型設計

由于 ToST 是通過展開從學習目標中推導出來的,我們可以以有原理支持的方式逐層分析學習到的模型行為。

ToST 模型不同層次的 TSSA 輸出的變分壓縮項

5. 學習表示的可解釋性分析

ToST 通過統計量驅動的注意力機制,使每一層的注意力操作更加透明,便于解釋和分析。其分組機制展現了 token 特征在低維空間中的聚類效果,直觀反映了模型的決策過程。

ToST 在無需復雜的自監督訓練的情況下,自然生成了可解釋的注意力模式。

倒數第二個全局類注意力層中最后一個頭部的 [CLS] token 注意力圖的比較

在 TSSA 層中,可視化估計的隸屬矩陣 Π 的每一行(經過重塑后)

可能對未來產生的影響

1. 大模型的高效化

隨著語言模型、生成模型和多模態模型規模的持續擴展,計算效率成為核心瓶頸。ToST 展示的統計量驅動注意力機制,為實現線性復雜度的大模型提供了可能性。

2. 推動 Transformer 的普適化應用

高效的注意力機制使得 ToST 能夠更廣泛地應用于資源受限場景,如邊緣計算、實時系統、嵌入式設備等。這為人工智能技術從中心化計算向分布式、邊緣化方向的發展奠定了基礎。

3. 多模態融合的可能性

ToST 的低復雜度機制為處理多模態長序列任務提供了新的技術框架,使未來多模態大模型在生成、分析和交互中的效率顯著提升。

4. 促進跨學科應用

ToST 對數學理論與工程實現的有機結合,不僅在傳統 AI 任務中表現突出,還可能推動其在新興領域(如量子計算、生物信息學和材料設計)中的應用。

Token Statistics Transformer (ToST) 重塑了注意力機制,它不需要計算 token 之間的兩兩交互,而是基于投影后 token 特征的二階矩統計量構建,其基于數據壓縮和表示學習的理論原則目標,為 Transformer 的發展開辟了新路徑。其基于統計特性的低復雜度設計,不僅優化了現有架構的性能,還為未來大模型的高效化、多模態融合和跨學科應用提供了啟示。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-08-26 22:25:36

自注意力機制神經網絡算法

2024-09-19 10:07:41

2025-04-16 08:30:00

AI模型論文

2023-07-29 13:26:51

模型AI

2025-07-16 10:15:51

2025-04-29 09:05:00

2015-10-22 10:54:24

小數據統計

2015-10-29 09:56:23

小數據大數據統計學

2024-10-31 10:00:39

注意力機制核心組件

2024-06-28 08:04:43

語言模型應用

2025-10-31 16:00:45

AI模型架構

2020-09-17 12:40:54

神經網絡CNN機器學習

2025-05-30 09:06:00

2023-05-05 13:11:16

2025-10-16 09:00:00

大模型

2024-12-09 00:00:10

2021-05-07 15:40:36

計算機互聯網 技術

2024-11-04 10:40:00

AI模型

2024-12-04 09:25:00

2025-02-25 10:21:15

點贊
收藏

51CTO技術棧公眾號

99这里只有精品| 久草在线视频网站| 成人精品国产亚洲| 97精品免费视频| 和岳每晚弄的高潮嗷嗷叫视频| 亚洲jizzjizz妇女| 久久狠狠婷婷| 欧美性猛交xxx乱久交| 国产精品素人一区二区| 天堂av免费看| 国产日产欧美精品| 1234区中文字幕在线观看| 欧美不卡在线| 欧美丝袜第一区| 色老板在线视频一区二区| 黄色一级片在线观看| 中文在线一区| 欧美三级xxx| 91精品免费看| 男人天堂v视频| 久久精品国内一区二区三区水蜜桃 | 欧美日韩国产小视频在线观看| 国产在线播放不卡| 3d动漫一区二区三区| 波多野吉衣av| 日韩中文字幕一区二区三区| 亚洲国产日韩欧美综合久久| 国模精品娜娜一二三区| 男女羞羞视频在线观看| 99视频精品免费视频| 日韩av大全| 图片区小说区亚洲| 日韩高清电影一区| 欧美日韩国产中文| 农村妇女精品一二区| 精品视频亚洲| 欧美一二三区在线| 欧美性bbwbbwbbwhd| 香蕉影院在线| 免费日本视频一区| 日本国产精品视频| 芒果视频成人app| 国产精品一二三区在线| av一本久道久久波多野结衣| 成人免费视频播放| 日韩a级黄色片| 国产精品入口免费视频一| 欧美男人操女人视频| 色婷婷久久久久swag精品| 另类调教123区 | 超级碰碰久久| 国产亚洲精品高潮| 成人在线看视频| 色综合狠狠操| 亚洲一级免费在线观看| 中文有码久久| 中文字幕21页在线看| 欧美日韩国产高清一区二区三区| 男生操女生视频网站| 成人精品毛片| 欧美日韩福利在线观看| 制服丝袜中文字幕在线观看| 亚洲精品人人| 成人激情视频免费在线| 久久白虎精品| 亚洲线精品一区二区三区八戒| 日本一级黄视频| а√天堂中文在线资源8| 精品露脸国产偷人在视频| 两根大肉大捧一进一出好爽视频| 欧美午夜美女看片| 在线观看污污视频| 欧美日韩另类在线| 日本在线xxx| 色中色综合网| 97超级碰碰| 国产精品毛片久久| 久久综合88中文色鬼| av在线免费网址| 日韩毛片在线观看| 国产精品12345| 国产成人在线看| 国产啪精品视频网站| 亚洲精品三区| 日韩电影大片中文字幕| 免费在线国产视频| 欧美放荡办公室videos4k| 欧产日产国产精品视频| 欧美性高潮在线| 成人免费高清在线播放| 国产精品国产三级国产aⅴ入口 | 免费视频成人| 日韩av在线网页| 久久一区欧美| 91av在线视频观看| 裸体素人女欧美日韩| 神马午夜伦理影院| 国产日韩精品一区二区浪潮av| 无码精品国产一区二区三区免费| 中文字幕精品在线不卡| 日本免费视频在线观看| 中文字幕在线观看亚洲| 色综合久久网| 国严精品久久久久久亚洲影视| 少妇一区二区视频| 日本一区视频在线播放| 国产一区二区伦理片| wwwxxx黄色片| 欧美日韩精品在线播放| 91国产精品| 亚洲sss综合天堂久久| 日韩福利电影在线观看| 福利h视频在线| 亚洲精品在线免费播放| 日韩欧美视频专区| 国产日本欧美在线| 欧美黄色录像片| 在线欧美小视频| y4480在线8影院| 成人精品视频一区二区三区尤物| 日韩视频一区在线| 成人在线免费电影| 亚洲国产精品久久久久蝴蝶传媒| av成人观看| 亚洲欧美一级二级三级| 麻豆乱码国产一区二区三区 | 亚洲精品ww久久久久久p站| 热久久这里只有| 老司机午夜精品视频在线观看| 啦啦啦中文高清在线视频| 亚洲成人7777| 99综合久久| 亚洲精品日韩激情在线电影| 久久精品久久久精品美女| 欧美精品a∨在线观看不卡| 国产成人精彩在线视频九色| 国产精品hd| 国产在线资源| 91色在线观看| 国产精品素人一区二区| 粉嫩的18在线观看极品精品| 欧美xxxx黑人又粗又长密月| 偷拍与自拍一区| 97久久夜色精品国产| 久久手机免费观看| 国产精品无码专区在线观看| 91色视频在线| 韩国日本一区| 亚洲乱码国产乱码精品天美传媒| 欧美日韩国产精品成人| 国内激情久久| 九色蝌蚪在线| 国产一区二区三区四区五区在线 | 麻豆av福利av久久av| 国内成人精品视频| 欧美日韩三区四区| 亚洲精品影视| 欧美天堂视频| 亚洲视频在线观看一区| 国产精品ⅴa有声小说| 日本在线一区| 国产精品福利av | 成人国产激情在线| 国产精品久久久久影院| 自产国语精品视频| 国产www视频在线观看| 男人天堂手机在线视频| 日韩欧美国产网站| 国产精品一区在线观看乱码| 日韩精品中文字幕第1页| 欧美少妇精品| 337p日本欧洲亚洲大胆鲁鲁| 成人性做爰片免费视频| 久久夜色精品国产| 狠狠综合久久av一区二区小说 | 欧美成人h版| 久久av二区| 中文字幕亚洲无线码a| 亚洲欧洲三级电影| 亚洲一区激情| 91亚洲一区| 成人高潮aa毛片免费| 免费特级黄色片| 91久久久在线| 欧美激情精品久久久久久免费印度| 3d动漫精品啪啪一区二区竹菊| 亚洲国产精品久久不卡毛片| 黄色日韩网站视频| 国产精品一二三四| 久久99国产精品久久| 99在线精品视频在线观看| 成人3d动漫在线观看| 国产精品久久久久9999赢消| 欧美freesex8一10精品| 老司机成人影院| 无人视频在线观看免费| 男女网站在线观看| 亚洲午夜日本在线观看| 免费看欧美美女黄的网站| 国产欧美午夜|