国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Mamba可以替代Transformer,但它們也能組合起來使用

人工智能 新聞
近日公布的一篇 NeurIPS 2023 論文《Block-State Transformers》就采用了這種做法,其不僅能輕松支持 65k token 長度的超長輸入,而且計算效率還非常高,速度相比使用循環單元的 Transformer 足可提升十倍之多!

Transformer 很厲害,但并不完美,尤其是在處理長序列方面。而狀態空間模型(SSM)則在長序列上的表現相當不俗。早在去年就有研究者提出可使用 SSM 替代 Transformer,參見文章《預訓練無需注意力,擴展到4096個token不成問題,與BERT相當》,前些天基于 SSM 方法的 Mamba 更是異軍突起,推理吞吐量達到了 Transformer 的五倍之多,參閱《五倍吞吐量,性能全面包圍Transformer:新架構Mamba引爆AI圈》。

但實際上,SSM 和 Transformer 并不是非此即彼的兩種架構,它們完全可以組合起來!

近日公布的一篇 NeurIPS 2023 論文《Block-State Transformers》就采用了這種做法,其不僅能輕松支持 65k token 長度的超長輸入,而且計算效率還非常高,速度相比使用循環單元的 Transformer 足可提升十倍之多!這篇論文也得到了 Mamba 作者 Tri Dao 的點贊,他表示:「SSM 和Transformer 似乎可以互補。」

圖片

但在我們介紹這種新方法前,先簡單說說 Transformer。在許多不同的自然語言處理(NLP)任務上,Transformer 的表現都非常出色。可以說 Transformer 已經很大相當程度上替代了循環神經網絡。不僅如此,它也正在圖像和視頻等 NLP 之外的領域大展拳腳。

其成功的原因有很多,包括計算效率和架構層面的歸納偏差,這讓它們非常適合在自然語言任務進行大規模訓練。在計算方面,Transformer 能以并行方式處理輸入序列的 token,從而使其能充分利用現代加速器硬件。此外,注意力機制讓 Transformer 可以找到更長序列之間的關系,其方式是在推斷下一個 token 時讀取從過去 token 提取的所有信息。相比于 RNN 和 LSTM,自注意力有兩個優勢:(1) 存儲信息以及將這些信息直接用作上下文的能力得到了極大提升,(2) 在更長序列上能更穩定地訓練。

盡管 Transformer 相比 RNN 有很多優勢,但它在輸入序列長度的擴展上依然存在問題,其中涉及計算性能和質量等方面的原因。更進一步說,Transformer 的運行時間會隨輸入序列長度的增長成二次方增長,這會讓訓練這些模型的成本越來越高。

此外,眾所周知使用注意力的 Transformer 在長輸入分類任務上表現不佳。最基本的 Transformer 在長序列上訓練時可能不穩定,而且其 token 重要度聚焦在當前時間步驟周圍約 50 個 token 的局部感受野中。

近來,越來越多的研究表明狀態空間模型(SSM)可以替代 Transformer,因為 SSM 可以捕獲極長序列之中的依賴關系,同時還有更高的計算效率和更好的并行化能力。

盡管 SSM 依然屬于自回歸序列模型,但其底層的線性時間不變式動態系統可使用基于快速傅立葉變換(FFT)的可并行化卷積算子來高效地處理序列,而且這個過程的復雜度僅為 ??(?? log ??),其中 ?? 是序列的長度。此外,借用在線函數近似的方法,通過推導循環更新規則,可以確保在長序列上保留過去的信息,甚至可達成千上萬個時間步驟。在 Long-Range Arena 基準上,SSM 甚至超過了 Transformer 一大截,參閱機器之心報道《六項任務、多種數據類型,谷歌、DeepMind提出高效Transformer評估基準》。

盡管 SSM 在長程分類任務上很成功,但如果要用作通用語言建模的現成可用序列模型,SSM 還完全趕不上 Transformer。

近期又有研究《Long Range Language Modeling via Gated State Spaces》認為 Transformer 和 SSM 完全可以互補。

DeepMind 等機構提出的新架構 Block-State Transformer(BST)將強大的基于局部注意力的歸納偏差與長期上下文建模能力組合到了一起,做成了單一層。

圖片

論文地址:https://arxiv.org/pdf/2306.09539.pdf

據介紹,該模型能在處理長輸入序列的同時整合注意力機制來預測下一個 token。相比于基于 Transformer 的層,BST 是完全可并行化的,能擴展用于更長得多的序列,同時速度還能快 10 倍。

在每一層 BST 中,有一個 SSM 將輸入的整個序列映射進一個同樣長度的「上下文」序列。這個 SSM 子層使用基于 FFT 的卷積。然后將這個上下文序列分成大小相等的上下文塊,這個大小即為窗口長度 W;然后再將每個上下文塊輸入一個 Transformer 層,其注意力關注的是大小為 W 的子序列。之后對輸入 token 嵌入塊與對應的上下文狀態塊使用交叉注意力,如圖 1 所示。

圖片

注意,通過將 SSM 用作一種上下文化的方法,就可以完全不需要序列循環,這樣一來就能以完全并行的方式運行這種 SSM-Transformer 混合層。

最后的運行時間復雜度可以表示成一個和:??(??2)+??(?? log ??),其中前一項表示 Transformer 子層的時間復雜度,后一項是 SSM 子層的時間復雜度。

只要有支持并行計算的硬件,相較于 Block-Recurrent Transformer 的 ??(????),這是一個重大提升。此外,由于硬件施加的限制,SSM 在完整序列上的運行時間復雜度與 Block Transformer 在 token 塊上的運行時間復雜度相當,這進一步意味著 BST 層不存在速度瓶頸。該團隊使用包含數十萬 token 的序列通過實驗驗證了這一點。

方法

這里研究的是通過僅解碼器語言模型實現下一 token 預測的問題。

對狀態空間的前置說明

狀態空間模型可以分為兩大類:

狀態空間:結構化核S4、S5、S4D、DSS遵循卷積核的一種結構化初始化,方式是展開一種線性時間不變式(LTI)動態系統,如下所示:

圖片

其中的參數包括狀態矩陣 ??∈?^{N×N},向量 ??∈?^{N×1}、??∈?^{1×N}、??∈?^{1×1}。SSM 會將一維的輸入信號 u_k 映射成一維的輸出信號 y_k。

顯式參數化的過濾器。不同于結構化核,還可以將卷積核參數化為可訓練的權重并優化它們。但是,這會導致性能很差,除非對這些核使用特定類型的正則化方法。替代 Transformer 的無注意力模型中也有使用可訓練核的,比如 Hyena 涉及到沿核對權重進行指數衰減。

Block-State Transformer(BST)層

Block-State Transformer 層將 SSM 與 Block Transformer 組合到了一起。在每一次訓練迭代中,都會從一個長文檔采樣一個包含 L 個 token 的序列。然后嵌入該 token 并將其饋送給模型。這個模型由堆疊的 Block-State Transformer 層構成。每一層 BST 都會選擇性地包含一個 SSM 子層,其負責為 Block Transformer 層提供長程上下文,這與 Block-Recurrent Transformer(BRECT)單元的工作方式類似。這個 SSM 子層的輸入是前一層的 token 嵌入序列,輸出則是一個長度同樣為 L 的序列。

這個輸出經過了上下文編碼,也就是說每個時間步驟的項目都可能包含有關該序列中元素之前的所有時間步驟的信息。他們從上下文序列收集一定數量 S 的「上下文狀態」,并使得 S ? L。

這些上下文狀態會被饋送給 Block Transformer,以替代 Block-Recurrent Transformer 中的「循環狀態向量」。如圖 1 右側所示,后續操作保持不變,只是無需再運行 BRECT 單元的循環單元,因為現在是通過 SSM 來維護上下文。除了上下文狀態,Block Transformer 的輸入中還有長度 W 的 token 嵌入的塊/窗口;然后在這個窗口與上下文狀態上使用交叉注意力。然后將這個交叉注意力操作的輸出與自注意力在輸入嵌入上的輸出連接起來,之后是一個簡單的投影。

SSM 不僅能在更長時間尺度上保留信息,而且使用 SSM 來維持上下文狀態以替代循環單元,可以得到計算效率更高的層。通過將 SSM 整合進 Transformer 層,可以移除循環部分,從而讓 Block-State Transformer 層可以完全并行化。

上下文狀態

盡管從技術上看,最新的 SSM 輸出包含有關整個序列的信息,但僅從最后的狀態檢索單個 token 可能是不可行的。為了彌補這一點,該團隊將一系列狀態連接了起來,對應于最新的 token 塊。這與 BRECT 采用的方法類似。這種表征可以通過冗余來確保可檢索性和易訪問性。

在新提出的方法中,上下文狀態是使用 SSM 的輸出構建的,并會被饋送給 Transformer 的注意力頭。這些上下文狀態的構建方式有很多。為了引導設計決策,該團隊考慮了多種設計方案,包括使用單頭(Single-Head)、多頭(Multi-Head)或多過濾器(Multi-Filter)。其中單頭設計見圖 1。下圖 2 則展示了多頭和多過濾器的設計方案。

圖片

比較下來,多過濾器的記憶狀態的冗余最少,多頭次之,單頭的冗余最大。

結果

該團隊在 PG19、GitHub 和 arXiv 三個數據集上進行了實驗,檢驗了新提出的 BST 在不同長度的英語文本、latex 科學文章和源代碼上的效果。下表 1 總結了實驗結果。

圖片

下圖 3 則給出了長度泛化分析并報告了困惑度。實驗中,新模型和基準模型的參數數量都約為 4 億,訓練時的序列長度為 4k,測試中的序列長度為 {512, 16k, 65k}。

可以看到,在 PG19、GitHub 和 arXiv 上,當序列長度為 65k 時,BST:SH:S4-L 的困惑度最好。

圖片

在效率方面,下圖 4 左給出了 BST 層在 GPU 上的基準測試結果。

可以看到 SSM 帶來了非常顯著的增長——比包含循環單元的 Block-Recurrent Transformer 快 6-11 倍;即使在序列長度達到 65k token 時,還依然能有 6 倍的提升,而這時候硬件就已經開始飽和了。當使用結構化的 SSM 時,計算復雜度與 SSM 的內部記憶狀態大小 N 緊密相關。對于報告的性能,N = 16。

圖片

研究者表示,如果使用其它自動微分框架中近期引入的更快的針對硬件的 I/O 感知型實現,BST 方法的速度還能更快。

更多技術細節和實驗結果參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-23 12:57:00

模型數據

2009-10-19 16:20:53

機房與拓撲管理

2019-07-26 06:58:17

物聯網ERPIOT

2023-07-31 00:14:28

2023-08-07 16:26:54

LinuxNautilus文件管理器

2020-09-23 10:36:32

ASESD-WAN安全訪問服務邊緣

2023-05-26 00:28:33

PandasAIChatGPTOpenAI

2020-09-23 10:36:38

安全

2020-05-27 09:53:19

大數據機器翻譯冠狀病毒

2022-08-09 11:14:45

首席信息官企業

2018-06-28 22:48:40

2019-12-19 14:07:33

IT運營CIO安全

2024-09-03 09:46:51

2017-08-04 10:33:52

人工智能神經科學Deepmind

2017-08-07 11:15:34

人工智能神經科學神經網絡

2021-11-01 17:14:28

物聯網區塊鏈技術

2010-04-22 13:36:15

Aix操作系統

2019-06-14 08:00:00

垃圾郵件郵件傳輸代理開源

2024-05-13 10:38:08

點贊
收藏

51CTO技術棧公眾號

男人天堂1024| 欧洲精品毛片网站| 国产免费人做人爱午夜视频| 琪琪久久久久日韩精品| 在线亚洲免费视频| 深夜宅男网站免费进入| 337p粉嫩大胆色噜噜噜噜亚洲| 91久久极品少妇xxxxⅹ软件| 国产在线播放精品| 久久精品视频在线播放| 97久久网站| 亚洲国产一区自拍| 好吊日视频在线观看| 丰满岳妇乱一区二区三区| 成人免费xx| 国产日韩欧美激情| 精品无码一区二区三区爱欲| 日本少妇一区二区| 久久资源亚洲| 久久国产精品99国产| 国产成人在线播放| 国产精品丝袜在线播放| 国产做受69高潮| 欧美调教视频| 国产精品日韩在线观看| 亚洲专区视频| 国产精品电影网站| 亚洲资源网你懂的| 国产伊人精品在线| 综合久久99| 亚洲一区二区三区四区在线播放| re久久精品视频| 国产女主播一区二区三区| 免费在线亚洲欧美| 一区二区传媒有限公司| 一区二区三区国产精品| 二区在线播放| 欧美78videosex性欧美| 中国一区二区三区| 伦理片一区二区三区| 欧美香蕉爽爽人人爽| 欧美精品一二| 亚洲性夜色噜噜噜7777| 日韩网站中文字幕| 精品毛片乱码1区2区3区| 三上悠亚亚洲一区| 性欧美视频videos6一9| 久久国产88| 天天干天天操天天玩| 欧美日韩国产页| 成人免费看视频网站| 国产欧美精品va在线观看| 黑人一区二区| 欧美黄色免费影院| 欧美女孩性生活视频| 久久丁香四色| 日本午夜精品一区二区| 久久精品一二三| av动漫精品一区二区| 日韩最新在线视频| 久久电影tv| 在线观看亚洲精品| 免费观看又污又黄在线观看国产 | 精品国产乱码久久久久久郑州公司 | 中国人与牲禽动交精品| 91九色porny视频| 高跟丝袜欧美一区| 欧美va在线播放| 国产一区二区三区| 亚洲自拍偷拍网址| 中文字幕中文字幕一区二区 | 一区二区国产精品| 最新四虎影在线在永久观看www| 亚洲精品第一页| 欧美精品一区二区三区久久久| 可以在线观看的av| 久久99精品视频一区97| 26uuu久久综合| 秋霞一区二区三区| 成人亚洲在线观看| 欧美极品少妇xxxxⅹ裸体艺术| 日韩专区在线视频| 福利网站在线观看| jizzjizz国产精品喷水| 日韩午夜电影在线观看| 欧美xxxx免费虐| 欧美网站在线观看| 日韩一二三四| 国产精品视频免费看| 青青草免费在线| 国产精品99导航| 综合av第一页| 日韩a级大片| 国产二区三区四区| 成人av在线天堂| 欧美一区中文字幕| 天天久久夜夜| 国产精品第七十二页| 亚洲经典视频| 欧美日本韩国一区二区三区| 尤物网精品视频| 好吊色欧美一区二区三区| 久久久欧美精品sm网站| 亚洲有码转帖| 91精品国产麻豆| 日本免费久久| www.日韩不卡电影av| 色婷婷成人网| 国产一级不卡毛片| 91久久中文字幕| 精品国产福利视频| 久久精品国产色蜜蜜麻豆| 午夜不卡影院| 国产在线传媒| 精品视频一区二区| 色婷婷av一区二区三区久久| 国产精品久久久久久户外露出 | 91丝袜美腿高跟国产极品老师| 自拍亚洲一区| 瑟瑟视频在线| 四虎最新地址发布| 欧美男人的天堂| 国产精品无av码在线观看| 一区二区福利视频| 欧美日韩国产片| 亚洲欧美日韩在线不卡| 青青草国产成人a∨下载安卓| 9lporm自拍视频区在线| 四虎成人免费在线| 青青视频在线播放| 久久人人爽人人爽人人av| 欧美1o一11sex性hdhd| 精品亚洲va在线va天堂资源站| 午夜亚洲国产au精品一区二区| 国产亚洲午夜高清国产拍精品| 久久久精品五月天| 精品福利电影| 鲁大师成人一区二区三区| 欧美午夜在线| 色琪琪久久se色| 欧美精品一区二区久久| 久久中文字幕av一区二区不卡| 99精品国产高清一区二区麻豆| 成人av三级| 在线不卡一区| 欧美三级午夜理伦三级在线观看 | 精品国产精品自拍| 精品久久久久久久中文字幕| 成人免费看黄yyy456| 日韩国产欧美在线视频| 亚洲第一区色| 福利一区二区在线| 成人av网址在线观看| 国产酒店精品激情| 国产三区在线成人av| 成人一道本在线| 亚洲免费在线电影| 欧美三区在线视频| 国产一区二区三区在线看| 久久久久久久久久久免费| 亚洲人成电影网站色www| 久久久久免费视频| 久久久久99精品久久久久| 不卡av电影在线观看| 国产精品视频免费在线| 国产精品久久99久久| 国内精品视频在线| 国产综合视频在线观看| 男人天堂成人网| 神马久久影视大全| 黄色成人在线网| av剧情在线观看| 久久wwww| 青青青爽久久午夜综合久久午夜| 国产日产亚洲精品系列| 欧美综合色免费| 久久琪琪电影院| 国产成人精品午夜| 久久久久久久有限公司| 国产激情美女久久久久久吹潮| 日本男女交配视频| 波多野结衣在线| 亚洲欧洲成人| 亚洲精品国产九九九| 国产在线观看一区二区| 欧美专区日韩专区| 欧美一区二区三区图| 成人在线免费观看av| 国内福利写真片视频在线 | 在线免费观看成人短视频| 色综合久综合久久综合久鬼88| 久久国产加勒比精品无码| 色中文字幕在线观看| 在线毛片网站| 欧美色图一区| 欧美精品大片| 五月天一区二区| 国产成+人+综合+亚洲欧洲 | 欧美亚洲一区在线| 青青在线免费观看视频|