国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Sigmoid注意力一樣強,蘋果開始重新審視注意力機制

人工智能 新聞
近來,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函數(shù)。最近,來自蘋果的研究者重新審視了 sigmoid 注意力并進行了深入的理論和實驗分析。

注意力是 Transformer 架構(gòu)的關(guān)鍵部分,負(fù)責(zé)將每個序列元素轉(zhuǎn)換為值的加權(quán)和。將查詢與所有鍵進行點積,然后通過 softmax 函數(shù)歸一化,會得到每個鍵對應(yīng)的注意力權(quán)重。

盡管 SoftmaxAttn 中的 softmax 具有廣泛的用途和有效性,但它并非沒有局限性。例如,softmax 函數(shù)有時會導(dǎo)致注意力集中在少數(shù)幾個特征,而忽略了其他信息。

近來,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函數(shù)。最近,來自蘋果的研究者重新審視了 sigmoid 注意力并進行了深入的理論和實驗分析。

該研究證明:從理論上講,與 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函數(shù)逼近器,并且受益于改進的正則化。

圖片

  • 論文地址:https://arxiv.org/pdf/2409.04431
  • 項目地址:https://github.com/apple/ml-sigmoid-attention
  • 論文標(biāo)題:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

該研究還提出了一種硬件感知且內(nèi)存高效的 sigmoid 注意力實現(xiàn) ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理內(nèi)核速度比 FLASHATTENTION2 提高了 17%。

跨語言、視覺和語音的實驗表明,合理歸一化的 sigmoid 注意力與 softmax 注意力在廣泛的領(lǐng)域和規(guī)模上性能相當(dāng),而之前的 sigmoid 注意力嘗試無法實現(xiàn)這一點。

此外,該研究還用 sigmoid 內(nèi)核擴展了 FLASHATTENTION2,將內(nèi)核推理掛鐘時間減少了 17%,將現(xiàn)實世界推理時間減少了 8%。

論文作者 Jason Ramapuram 表示:如果想讓注意力快 18% 左右,你不妨試試 Sigmoid 注意力機制。他們用 Sigmoid 和基于序列長度的常量標(biāo)量偏置取代了注意力機制中的傳統(tǒng) softmax。

Sigmoid 注意力

假設(shè)圖片為向量 n 的輸入序列,每個向量是 d 維。接著研究者定義了三個可學(xué)習(xí)權(quán)重矩陣圖片、圖片以及圖片。這三個矩陣用于計算查詢圖片,鍵圖片,以及值圖片。可以得到如下公式:

圖片

根據(jù)先前的研究,自注意力可以簡寫為:

圖片

其中 Softmax 函數(shù)將輸入矩陣的每一行進行了歸一化。該研究將 Softmax 做了以下替換:

實際上,將圖片作為輸出序列,可以得到:

圖片

將多個 SigmoidAttn 輸出進行組合,得到多個頭的形式,如下所示:

圖片

Sigmoid 注意力理論基礎(chǔ)

該研究對 SigmoidAttn 進行了分析,分析的目的主要有兩個:(1)證明當(dāng) SigmoidAttn 取代 SoftmaxAttn 時,Transformer 架構(gòu)仍然是一個通用函數(shù)逼近器;(2)通過計算 SigmoidAttn 的 Lipschitz 常數(shù)來恢復(fù)其規(guī)律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器嗎?

經(jīng)典 Transformer 可以將連續(xù)的序列到序列函數(shù)近似到任意精度,這一特性稱為通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受歡迎,因為它證明了架構(gòu)的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架構(gòu),因此從理論上保證這種修改不會影響表示能力并保留 UAP 的性能至關(guān)重要。該研究通過以下定理提供此保證。

結(jié)果表明,即使使用 SigmoidAttn,一系列 transformer 塊也可以實現(xiàn)上下文映射。

Sigmoid 注意力的正則性

與神經(jīng)網(wǎng)絡(luò)中的任何層一樣,SigmoidAttn 的正則性值得研究,因為它可以深入了解相應(yīng)網(wǎng)絡(luò)的魯棒性及其優(yōu)化的難易程度。

SigmoidAttn 正則性定理為:

圖片

結(jié)果證明,SigmoidAttn 的局部 Lipschitz 常數(shù)遠(yuǎn)低于 SoftmaxAttn 的最差局部 Lipschitz 常數(shù)。

FLASHSIGMOID:硬件感知實現(xiàn)

現(xiàn)代架構(gòu)上的注意力計算往往會受到內(nèi)存訪問 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通過優(yōu)化 GPU 內(nèi)存層次結(jié)構(gòu)利用率來加速注意力計算。得益于這些方法提供的速度提升,該研究開發(fā)了 SigmoidAttn 的硬件感知實現(xiàn) ——FLASHSIGMOID,采用了三個核心思路:

  • Tiling:注意力分而治之的方法:與 FLASHATTENTION 和 FLASHATTENTION2 類似,F(xiàn)LASHSIGMOID 并行處理輸入部分以計算塊中的注意力輸出,有效地組合部分結(jié)果以生成最終的注意力輸出。 
  • 內(nèi)核融合:與 FLASHATTENTION 和 FLASHATTENTION2 一樣,F(xiàn)LASHSIGMOID 將 SigmoidAttn 的前向和后向傳遞的計算步驟實現(xiàn)為單個 GPU 內(nèi)核,通過避免高帶寬內(nèi)存 (HBM) 上的中間激活具體化,最大限度地減少內(nèi)存訪問并提高內(nèi)存效率。
  • 激活重計算:sigmoid 注意力的向后傳遞需要 sigmoid 激活矩陣,如果在 GPU HBM 上具體化,則會導(dǎo)致執(zhí)行速度變慢和內(nèi)存效率低下。FLASHSIGMOID 通過僅保留查詢、鍵和值張量來解決這個問題,以便在向后傳遞期間重新計算 sigmoid 激活矩陣。盡管增加了 FLOPs,但事實證明,與具體化和保留注意力矩陣的替代方法相比,這種方法在掛鐘時間上更快,并且內(nèi)存效率更高。

實驗

為了實驗驗證 SigmoidAttn,該研究在多個領(lǐng)域進行了評估:使用視覺 transformer 進行監(jiān)督圖像分類、使用 SimCLR 進行自監(jiān)督圖像表示學(xué)習(xí)、BYOL(Bootstrap Your Own Latent)和掩碼自動編碼器 (MAE) 以及自動語音識別 (ASR) 和自回歸語言建模 (LM)。

該研究還在 TED-LIUM v3 上驗證了 ASR 的序列長度泛化,在所有這些領(lǐng)域和算法中,該研究證明 SigmoidAttn 的性能與 SoftmaxAttn 相當(dāng)(圖 2 和 21),同時提供訓(xùn)練和推理加速。

圖片

圖片

該研究得出以下觀察結(jié)果:

SigmoidAttn 對于沒有偏置的視覺任務(wù)是有效的(MAE 除外),但依賴于 LayerScale 以無超參數(shù)的方式匹配基線 SoftmaxAttn(圖 9-a)的性能。除非另有說明,否則為 SoftmaxAttn 呈現(xiàn)的所有結(jié)果也公平地添加了 LayerScale。

LM 和 ASR 對初始范數(shù)圖片較為敏感。需要通過 (a) 相對位置嵌入進行調(diào)整;(b) 適當(dāng)初始化 b 以實現(xiàn)相同效果 —— 允許使用任何位置嵌入。

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡(luò)算法

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2022-03-25 11:29:04

視覺算法美團

2025-10-31 16:00:45

AI模型架構(gòu)

2024-10-31 10:00:39

注意力機制核心組件

2024-06-28 08:04:43

語言模型應(yīng)用

2024-12-09 00:00:10

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機器學(xué)習(xí)

2024-12-04 09:25:00

2024-11-04 10:40:00

AI模型

2023-05-05 13:11:16

2025-10-16 09:00:00

大模型

2025-02-25 10:21:15

2025-07-16 10:15:51

2011-07-07 13:12:58

移動設(shè)備端設(shè)計注意力

2025-02-10 00:00:55

MHAValue向量

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡(luò)PyTorch

2024-07-16 14:15:09

2024-12-17 14:39:16

2025-02-19 15:30:00

模型訓(xùn)練數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

国产精品美女久久久久av爽李琼 | 国产99在线播放| 中文字幕资源网在线观看| 亚洲国产精品久久久久婷蜜芽| 亚洲大片精品免费| 亚洲国产第一页| 最近中文字幕mv第三季歌词 | 日韩精品在线网站| 欧美xxxx18| 国产成人精品一区二| 99影视tv| 伊人精品一区| 精品国产一区二区三区久久久| 中文国产字幕在线观看| 午夜婷婷国产麻豆精品| 日本黄网站免费| 国产一区二区三区观看| 亚洲国产欧美一区二区三区同亚洲| 91欧洲在线视精品在亚洲| 99在线精品免费| 亚洲福利av| 国产精品大片| 国产精品爽爽爽| 日韩高清成人在线| 欧美老少配视频| 91精品国产经典在线观看| 欧美精品一区二区三区一线天视频| 久久精品色图| 亚洲第一成人在线| 免费男女羞羞的视频网站中文版 | 欧美日韩国产亚洲沙发| 亚洲精品免费在线观看| 九色porny自拍| 99re这里只有精品视频首页| 久久天天东北熟女毛茸茸| 日日欢夜夜爽一区| 欧美国产一二三区| 亚洲一区一卡| 欧美精品一区二区三区久久| 欧美日韩免费观看一区=区三区| 国产精品丝袜一区二区三区| 欧洲专线二区三区| 777午夜精品福利在线观看| 国产一区影院| 久久九九热免费视频| 日本男人操女人| 播五月开心婷婷综合| 青青草综合视频| 韩国v欧美v日本v亚洲v| 日韩片电影在线免费观看| 久久精品一区| 日韩一本精品| 九九国产精品视频| 欧美日韩激情四射| 99精品在线观看视频| 久久国产色av免费观看| 中文字幕乱码久久午夜不卡| 国产欧美在线视频| 污影院在线观看| 51精品久久久久久久蜜臀| 成人动漫在线免费观看| 91精品视频网| 原纱央莉成人av片| 不卡av电影院| 蜜乳av综合| 国产高清在线精品一区二区三区| 99精品视频免费观看视频| 日本在线观看不卡| 成人免费视频app| 福利电影导航| 欧美视频三区在线播放| 国产自产自拍视频在线观看| 日韩网站免费观看| 日韩精选在线| 国产欧美一区二区视频 | …久久精品99久久香蕉国产| 国产伦精品一区二区三区千人斩| 91亚洲va在线va天堂va国| 视频在线观看91| 国产成人永久免费视频| 亚洲啪啪综合av一区二区三区| 国产毛片在线看| 亚洲美女视频网| 日韩高清电影免费| 久久66热这里只有精品| 99在线视频精品| 日色在线视频| 91在线丨porny丨国产| 97视频在线| 欧美一区二区三区视频在线| 最新日韩一区| 国产色婷婷国产综合在线理论片a| 久久蜜桃精品| 综合婷婷亚洲小说| 99se婷婷在线视频观看| 美女尤物国产一区| 制服丝袜影音先锋| 在线播放91灌醉迷j高跟美女 | 国产伊人久久| 国产欧美一区二区| 国产又黄又大久久| 中文字幕视频在线观看| 亚洲天堂2020| 婷婷激情在线| 中日韩午夜理伦电影免费| 欧美色图激情小说| 日韩中文在线字幕| 都市激情亚洲色图| 日本午夜免费一区二区| 国产一区二区三区无遮挡| 日本一区二区在线不卡| 麻豆av在线免费观看| 国产成人免费av电影| av自拍一区| 快播日韩欧美| 亚洲男人电影天堂| 99riav视频在线观看| 日本成人免费在线| 东方aⅴ免费观看久久av| av在线首页| 国产精品1234| 91免费版在线看| 91破解版在线观看| 91麻豆精品秘密入口| 国产精品久久久久久久第一福利| 免费在线小视频| 国产精品二区二区三区| 亚洲精选视频在线| 精品一区二区三区四区五区| 一区不卡字幕| 欧美精选一区二区| 天天综合亚洲| 成人欧美一区二区三区在线观看 | 日本不良网站在线观看| 91在线免费看网站| 国产精品家庭影院| 国产成人免费精品| 中文字幕一区二区三区在线乱码 | 亚洲一二三四在线观看| 激情五月综合婷婷| 国产人妻人伦精品| 精品少妇一区二区三区在线视频| 91综合久久| 波多野结衣在线| 欧日韩在线观看| 中文字幕日本乱码精品影院| 日韩高清在线观看一区二区| 日韩欧美精品免费| 夜夜嗨av一区二区三区四区| 日本午夜精品视频在线观看| 午夜视频在线看| 国产精品成人观看视频免费| 一本色道亚洲精品aⅴ| 日韩成人精品一区二区| 最新黄色片网站| 国产伦精品免费视频| 亚洲一二三四久久| 国产精品久久久久久麻豆一区软件| 丝袜美女写真福利视频| 国产精品久久久久久亚洲调教| 一区二区三区四区在线| 日韩成人影院| 欧美拍拍视频| 久久久免费看| 亚洲成年人在线播放| 精品亚洲国内自在自线福利| 1234区中文字幕在线观看| 宅男一区二区三区| 最新国产精品拍自在线播放| 国产一区二区三区免费在线观看 | 在线看日韩精品电影| 欧美激情五月| 成人ww免费完整版在线观看| 日韩精品久久久毛片一区二区| 欧美成人一区二区三区在线观看 | 大片免费播放在线视频| 国产精品一区二区欧美| 日韩一区二区三区av| 狠狠色丁香久久婷婷综合_中| 成人黄色毛片| 伊人影院综合在线| 国产日韩在线看| 777午夜精品视频在线播放| 日韩经典一区二区| 欧美视频精品| 写真片福利在线播放| 国产精品v欧美精品v日韩精品| 欧美男gay| 亚洲va欧美va国产综合久久| 欧美日韩激情在线| 国产+成+人+亚洲欧洲自线| 亚洲一区二区三区中文字幕在线观看 | 成人av午夜影院| 成功精品影院| 久青草国产在线| 欧美 日韩 国产 在线观看| 欧美二区在线播放| 色综合久久六月婷婷中文字幕| 久久综合综合久久综合| 第四色在线一区二区|