国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

MoE與Mamba強強聯合,將狀態空間模型擴展到數百億參數

人工智能 新聞
近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

狀態空間模型(SSM)是近來一種備受關注的 Transformer 替代技術,其優勢是能在長上下文任務上實現線性時間的推理、并行化訓練和強大的性能。而基于選擇性 SSM 和硬件感知型設計的 Mamba 更是表現出色,成為了基于注意力的 Transformer 架構的一大有力替代架構。

近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

近日,波蘭一個研究團隊發現,如果將 SSM 與混合專家系統(MoE/Mixture of Experts)組合起來,可望讓 SSM 實現大規模擴展。MoE 是目前常用于擴展 Transformer 的技術,比如近期的 Mixtral 模型就使用了這一技術,參閱機器之心文章。

這個波蘭研究團隊給出的研究成果是 MoE-Mamba,即將 Mamba 和混合專家層組合起來的模型。

圖片

論文地址:https://arxiv.org/pdf/2401.04081.pdf

MoE-Mamba 能同時提升 SSM 和 MoE 的效率。而且該團隊還發現,當專家的數量發生變化時,MoE-Mamba 的行為是可預測的。

該團隊也進行了實驗論證,如圖 1 所示,結果表明:相比于 Mamba,MoE-Mamba 達到同等性能時所需的訓練步驟數少 2.2 倍,這彰顯了新方法相較于 Transformer 和 Transformer-MoE 的潛在優勢。這些初步結果也指出了一個頗具潛力的研究方向:SSM 也許可以擴展到數百億參數!

圖片

相關研究

狀態空間模型

狀態空間模型(SSM)是一類用于序列建模的架構。這些模型的思想源自控制論領域,可被看作是 RNN 和 CNN 的組合。盡管它們具有相當大的優勢,但也有一些問題,因此難以成為語言建模任務的主導架構。但是,近期的一些研究突破卻讓深度 SSM 可以擴展到數十億參數,同時還能維持計算效率和強大的性能表現。

Mamba

Mamba 是基于 SSM 構建的模型,能實現線性時間的推理速度(對上下文長度而言),并且其還通過硬件感知型設計實現了高效的訓練流程。Mamba 采用了一種工作高效型的并行掃描方法,可以減輕循環的序列性的影響,而融合 GPU 操作則可無需實現擴展狀態。反向傳播所必需的中間狀態不會被保存下來,而是會在反向通過過程中被重新計算,由此可以降低內存需求。Mamba 優于注意力機制的優勢在推理階段尤其顯著,因為其不僅能降低計算復雜度,而且內存使用量還不會取決于上下文長度。

Mamba 能解決序列模型的效率和效果之間的根本性權衡,這就凸顯了狀態壓縮的重要性。高效的模型必需要小狀態,而有效的模型所需的狀態應當包含上下文的所有關鍵信息。不同于其它 SSM 對時間和輸入不變性的需求,Mamba 引入了一種選擇機制,可以控制信息沿序列維度傳播的方式。這一設計選擇的靈感來自對選擇性復制和歸納頭等合成任務的直觀理解,讓模型可以分辨和保留關鍵信息,同時濾除無關信息。

研究發現,Mamba 有能力高效地利用更長的上下文(長達 1M token),并且隨著上下文長度增長,預訓練困惑度也會得到改善。Mamba 模型是由堆疊的 Mamba 塊構成的,在 NLP、基因組學、音頻等多個不同領域都取得了非常好的結果,其性能可以媲美和超越已有的 Transformer 模型。因此,Mamba 成為了通用序列建模骨干模型的一個有力候選模型,參閱《五倍吞吐量,性能全面包圍 Transformer:新架構 Mamba 引爆 AI 圈》。

混合專家

混合專家(MoE)這類技術能極大提升模型的參數數量,同時不會影響模型推理和訓練所需的 FLOPs。MoE 最早由 Jacobs et al. 于 1991 年提出,并在 2017 年由 Shazeer et al. 開始用于 NLP 任務。

MoE 有一個優勢:激活很稀疏 —— 對于處理的每個 token,只會用到模型的一小部分參數。由于其計算需求,Transformer 中的前向層已經變成了多種 MoE 技術的標準目標。

研究社區已經提出了多種方法用于解決 MoE 的核心問題,即將 token 分配給專家的過程,也稱路由(routing)過程。目前有兩種基本的路由算法:Token Choice 和 Expert Choice。其中前者是將每個 token 路由到一定數量(K)的專家,至于后者則是路由到每個專家的 token 數量是固定的。

Fedus et al. 在 2022 年的論文《Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity》中提出的 Switch 是一種 Token Choice 架構,其是將每個 token 路由到單個專家(K=1),而他們使用該方法將 Transformer 的參數規模成功擴增至了 1.6 萬億。波蘭的這個團隊在實驗中也采用了這種 MoE 設計。

最近,MoE 也開始進入開源社區,比如 OpenMoE。

項目地址:https://github.com/XueFuzhao/OpenMoE

尤其值得一提的是 Mistral 開源的 Mixtral 8×7B,其性能可比肩 LLaMa 2 70B,同時所需的推理計算預算只有后者的約六分之一。

模型架構

盡管 Mamba 的主要底層機制與 Transformer 中使用的注意力機制大不相同,但 Mamba 保留了 Transformer 模型的高層級、基于模塊的結構。使用這一范式,由相同模塊構成的一層或多層會彼此堆疊在一起,而每一層的輸出都會被添加到殘差流(residual stream)中,見圖 2。之后,這個殘差流的最終值會被用于預測語言建模任務的下一個 token。

MoE-Mamba 利用了這兩種架構的兼容能力。如圖 2 所示,在 MoE-Mamba 中,每間隔一個 Mamba 層就會被替換成一個基于 Switch 的 MoE 前饋層。

圖片

不過該團隊也注意到這一設計和《Mamba: Linear-time sequence modeling with selective state spaces》的設計有些相似;后者交替堆疊了 Mamba 層和前饋層,但得到的模型相比于單純的 Mamba 還略有不及。該設計在圖 1 中被記為 Mamba-MLP。

MoE-Mamba 分開了 Mamba 層執行的每個 token 的無條件處理和 MoE 層執行的有條件處理;其中的無條件處理可高效地將序列的整個上下文整合到一個內部表征中,而有條件處理可為每個 token 使用最相關的專家。這種將有條件處理和無條件處理交替起來的思路在一些基于 MoE 的模型中已經得到了應用,不過它們通常是交替基本的和 MoE 的前饋層。

主要結果

訓練設置

該團隊比較了 5 種不同設置:基本 Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。

在大多數 Transformers 中,前饋層包含 8dm2 個參數,而 Mamba 論文中則讓 Mamba 更小一些(約 6dm2),這樣兩個 Mamba 層的參數數量與一個前饋層和一個注意力層加起來差不多。為了讓 Mamba 和新模型中每個 token 的活動參數數量大致一樣,該團隊將每個專家前向層的大小縮小到了 6dm2。除了嵌入層和解除嵌入(unembedding)層,所有模型都是每個 token 使用大約 2600 萬參數。訓練過程使用了 65 億個 token,訓練步驟數為 100k。

訓練使用的數據集是 English C4 數據集,任務是預測下一 token。文本的 token 化使用了 GPT2 tokenizer。表 3 給出了超參數的完整列表。

圖片

結果

表 1 給出了訓練結果。MoE-Mamba 的表現顯著優于普通 Mamba 模型。

圖片

值得注意的是,MoE-Mamba 只用僅僅 46% 的訓練步驟就達到了與普通 Mamba 同等的結果水平。由于學習率是針對普通 Mamba 進行調整的,因此可以預計,如果再針對 MoE-Mamba 對訓練流程進行一番優化,MoE-Mamba 的表現還會更好。

消融研究

為了評估 Mamba 是否能隨專家數量的增長而很好地擴展,研究者比較了使用不同數量專家的模型。

圖 3 展示了使用不同數量的專家時的訓練運行步驟情況。

圖片

表 2 給出了 100k 步驟后的結果。

圖片

這些結果表明新提出的方法能隨專家數量而很好地擴展。如果專家的數量為 8 或更多,新模型的最終性能優于普通 Mamba。由于 Mamba-MLP 比普通 Mamba 差,可以預見使用少量專家的 MoE-Mamba 的性能表現會比 Mamba 差。當專家數為 32 時,新方法得到了最佳結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-24 09:36:43

模型架構

2023-07-18 09:54:43

模型語言

2013-02-21 09:41:49

CitusData數據庫Postgres

2023-11-16 16:33:43

谷歌人工智能

2015-08-13 13:44:21

優化多核

2017-02-09 16:39:54

百度

2023-03-08 14:14:51

微軟ChatGPT

2009-02-26 10:50:04

NetApp虛擬化VMware ESX

2009-11-12 15:19:54

2009-11-12 15:30:44

2022-03-23 16:28:18

微軟NVIDIAGPU

2017-05-26 23:09:47

2009-02-25 16:50:00

2021-01-01 09:46:43

微軟Windows 10Windows

2022-11-10 08:02:41

GitOpsDevOpsKubernetes

2009-09-08 11:05:00

JRuby入門Ruby

2020-09-25 22:29:06

OPPO終端美的

2020-06-05 14:30:03

CephCPU 線程

2022-11-01 08:00:00

2023-03-03 14:08:51

網絡安全首席信息安全官
點贊
收藏

51CTO技術棧公眾號

亚洲综合久久久| 日韩午夜在线播放| 五月综合激情在线| 国产三级一区二区| 成年人羞羞的网站| 精品久久久久久久久久久| 午夜在线小视频| 亚洲日本成人网| 中文字幕色呦呦| 国产精品美女久久福利网站| 国产特级毛片| 精品欧美乱码久久久久久 | 成人性生交大片免费看中文| 97成人在线观看视频| 欧美三级xxx| 偷拍中文亚洲欧美动漫| 国产精品jizz在线观看麻豆| 免费在线观看精品| 午夜cr在线观看高清在线视频完整版| 亚洲美女激情视频| 好吊一区二区三区| 亚洲精品一区二区| 久久久久久国产三级电影| 99国产精品一区| 欧美三级电影网址| 免费在线观看亚洲视频| 精品国产网站地址| 激情av一区| 天堂成人在线| 中文字幕国产精品| 成人国产免费视频| 亚洲伦理网站| 日韩欧美精品在线观看视频| 日韩在线观看免费高清| 91色婷婷久久久久合中文| 97se亚洲国产一区二区三区| 91看片就是不一样| 最近2019年好看中文字幕视频| 国产盗摄精品一区二区三区在线| 国产成人免费视频网站视频社区| 三级在线免费看| 国产成人短视频| 欧美亚洲国产一区二区三区| 欧美亚洲视频| 97久久中文字幕| 97影院手机在线观看| 91麻豆国产语对白在线观看| 精品欧美一区二区三区精品久久| 激情综合一区二区三区| jizz国产精品| 中文在线观看免费| 欧美一区二区三区爽大粗免费| 4p变态网欧美系列| 亚洲在线免费播放| 欧美日本久久| 色一情一乱一伦一区二区三欧美 | 国产精品亚洲综合| 欧美日韩在线免费视频| 一本久道久久综合婷婷鲸鱼| 欧美理论片在线播放| 色撸撸在线观看| 久久亚洲成人精品| 亚洲欧洲制服丝袜| 亚洲国内精品| 欧美日韩免费观看视频| 黄色动漫网站入口| 国产精品88a∨| 色欧美片视频在线观看在线视频| 亚洲欧美日韩国产| 亚洲天堂1区| 日韩加勒比系列| 国产精品美女诱惑| 精品久久国产精品| 亚洲精品乱码久久久久久久久| 欧美gay男男猛男无套| 国产99在线| 免费av高清| 欧美与动交zoz0z| 91国内揄拍国内精品对白| 欧美伊人久久久久久久久影院| 黑人精品欧美一区二区蜜桃| 中文字幕一区日韩精品| 激情在线视频| 国产91在线免费| 玖玖玖精品中文字幕| 蜜臀久久99精品久久久久久宅男| 欧美在线free| 一区二区三区影院| 成人黄色在线看| 亚洲天堂偷拍| 亚洲精品一级二级三级| a级片免费在线观看| 性chinese极品按摩| 中文字幕日韩一区二区三区不卡| 欧美中文字幕在线播放| 日韩成人av在线播放| 一二三区精品福利视频| 波多野结衣一区二区三区| 亚洲久久在线| 久久视频在线| 日韩美女精品| 国内在线观看一区二区三区| 永久免费毛片在线播放| 久草视频视频在线播放| 国产不卡视频在线| 久久综合亚洲社区| 亚洲精品在线电影| 欧美日韩视频不卡| 激情久久av一区av二区av三区| 欧美激情一二三区| 91在线看国产| 国产一区二区三区在线观看精品| 99热在线精品观看| 亚洲无线一线二线三线区别av| 成人高清av| 久久精品高清| 午夜激情一区| 国产精品vip| 影音先锋一区| 三级精品在线观看| 国产精品一级片在线观看| 久久精品99国产精品日本| 成人精品国产一区二区4080| 国产精品一区一区| 2017欧美狠狠色| 亚洲乱码中文字幕| 五月综合激情网| 欧美视频一区二区三区在线观看| 欧美日韩国产麻豆| 欧美日韩高清在线| 日韩三区在线观看| 亚洲精品美女网站| 中文字幕在线日韩| 国产精品成人一区| **亚洲第一综合导航网站| 日本一区视频在线| 手机看片福利日韩| h视频网站在线观看| 美女在线视频免费| 在线视频亚洲欧美中文| 欧美大人香蕉在线| 久久久久国产精品一区三寸| 91在线视频播放| 午夜日韩在线电影| 精品国产乱码久久久久久牛牛| 欧美另类精品xxxx孕妇| 91久久久久久久久久久| 天堂av免费看| 老司机色在线视频| 麻豆理论在线观看| 国产探花一区二区| 国产精品一卡二卡| 夜夜嗨av一区二区三区网页| 91精品国产综合久久蜜臀| 日韩视频在线免费| 超碰97国产在线| 已婚少妇美妙人妻系列| 网友自拍视频在线| 秋霞蜜臀av久久电影网免费| 日韩va亚洲va欧美va久久| 亚洲国产精品传媒在线观看| 日韩欧美国产系列| 国产精品视频午夜| 69堂免费视频| 影音先锋在线播放| 五月综合激情| 依依成人综合视频| 中文字幕一精品亚洲无线一区 | 日韩一区二区影院| 成人欧美一区二区三区视频xxx| 精品国产日本| av在线加勒比| 亚洲丝袜啪啪| 中文字幕中文字幕一区| 欧美性极品少妇| 国产精品久久久久免费| 日韩三级电影网| 国产精品一区二区果冻传媒| 国产精品扒开腿做爽爽爽视频 | 欧美日产在线观看| 鲁一鲁一鲁一鲁一av| 欧美国产精品专区| 日韩av影视| 日韩片欧美片| 国内精品久久久久影院 日本资源| 在线观看国产中文字幕| 午夜影院在线观看国产主播| 亚洲欧美精品午睡沙发| 国产精品最新在线观看| 国产二区视频在线观看| 国产精品主播| 亚洲第一精品夜夜躁人人爽 | 天天色天天操综合| www.日本在线视频| 91精品国产乱码久久久竹菊| 国产精品白丝jk白祙喷水网站 | 18+激情视频在线| 久久视频一区| 777午夜精品福利在线观看| 午夜免费福利小电影|