国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

新聞 人工智能
剛剛,Google Brain 高級研究科學家 Barret Zoph 發帖表示,他們設計了一個名叫「Switch Transformer」的簡化稀疏架構,可以將語言模型的參數量擴展至 1.6 萬億(GPT-3 是 1750 億)。

 剛剛,Google Brain 高級研究科學家 Barret Zoph 發帖表示,他們設計了一個名叫「Switch Transformer」的簡化稀疏架構,可以將語言模型的參數量擴展至 1.6 萬億(GPT-3 是 1750 億)。在計算資源相同的情況下,Switch Transformer 的訓練速度可以達到 T5 模型的 4-7 倍。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

在深度學習領域,模型通常會對所有輸入重用相同的參數。但 Mixture of Experts (MoE,混合專家) 模型是個例外,它們會為每個輸入的例子選擇不同的參數,結果得到一個稀疏激活模型——雖然參數量驚人,但計算成本恒定。

目前,MoE 模型已在機器翻譯領域取得了令人矚目的成就,但由于模型復雜度高、通信成本高、訓練不夠穩定,其廣泛應用受到了一定的阻礙。

為了解決這些問題,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的設計中,它們簡化了 MoE 的路由算法(routing algorithm),設計了直觀的改進模型,新模型的通信成本和計算成本都大大降低。此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

論文鏈接:https://arxiv.org/pdf/2101.03961.pdf

代碼鏈接:

https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

研究者還將新模型與 T5-Base 和 T5-Large 進行了對比,結果表明,在相同的計算資源下,新模型實現了最高 7 倍的預訓練速度提升。這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對于 mT5-Base 版本的性能提升。

最后,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。

研究者還表示,雖然這項工作著眼于規模,但它也表明,Switch Transformer 架構不僅在具備超級計算機的環境下具有優勢,在只有幾個計算核心的計算機上也是有效的。此外,研究者設計的大型稀疏模型可以被蒸餾為一個小而稠密的版本,同時還能保留稀疏模型質量提升的 30%。

Switch Transformer 的設計原理

Switch Transformer 的主要設計原則是,以一種簡單且計算高效的方式最大化 Transformer 模型的參數量。Kaplan 等人(2020)已經對擴展的效益進行了詳盡的研究,揭示了隨模型、數據集大小以及計算預算變化的冪定律縮放。重要的是,該研究提倡在相對較少數據上訓練大型模型,將其作為計算最優方法。

基于這些,研究者在增加參數量的同時保持每個示例的 FLOP 不變。他們假設參數量與執行的總計算量無關,是可以單獨縮放的重要組件。所以,研究者通過設計一個稀疏激活的模型來實現這一目標,該模型能夠高效地利用 GPU 和 TPU 等為稠密矩陣乘法設計的硬件。

在分布式訓練設置中,模型的稀疏激活層在不同設備上分配唯一的權重。所以,模型權重隨設備數量的增加而增加,同時在每個設備上保持可管理的內存和計算空間。

Switch Transformer 的編碼器塊如下圖 2 所示:

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

簡化稀疏路由

Shazeer 等人(2017)提出了一個自然語言 MoE 層,它以 token 表征 x 為輸入,然后將其發送給最堅定的 top-k 專家(從 N 個專家組成的 ^N_i=1 集合中選出)。他們假設將 token 表征發送給 k>1 個專家是必要的,這樣可以使 routing 函數具備有意義的梯度。他們認為如果沒有對比至少兩個專家的能力,則無法學習路由。

與這些想法不同,谷歌大腦這項研究采用簡化策略,只將 token 表征發送給單個專家。研究表明,這種簡化策略保持了模型質量,降低了路由計算,并且性能更好。研究者將這種 k=1 的策略稱為 Switch 層。

下圖 3 展示了具有不同專家容量因子(expert capacity factor)的路由示例:

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

高效稀疏路由

研究者使用了 Mesh-Tensorflow 庫 (MTF),它具有類似于 TensorFlow 的語義和 API,可促進高效分布式數據和模型并行架構。研究者在設計模型時考慮到了 TPU,它需要靜態大小。

分布式 Switch Transformer 實現:所有張量形狀在編譯時均得到靜態確定,但由于訓練和推斷過程中的路由決策,計算是動態的。鑒于此,一個重要的技術難題出現了:如何設置專家容量?

專家容量(每個專家計算的 token 數量)的計算方式為:每個批次的 token 數量除以專家數量,再乘以容量因子。如公式(3)所示:

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

如果將太多 token 發送給一個專家(下文稱為「丟棄的 token」),則會跳過計算,token 表征通過殘差連接直接傳遞到下層。但增加專家容量也不是沒有缺點,數值太高將導致計算和內存浪費。這當著的權衡如上圖 3 所示。

實證研究發現,將丟棄的 token 比例保持在較低水平對于稀疏專家模型的擴展很重要。設計決策對模型質量和速度的影響參見下表 1。

Switch Transformer

研究者首先在 Colossal Clean Crawled Corpus (C4) 數據集上對 Switch Transformer 進行了預訓練測試,使用了掩蔽語言建模任務。在預訓練設置中,他們遵循 Raffel 等人(2019)確定的最優方案,去掉了 15% 的 token,然后使用單個 sentinel token 來替代掩蔽序列。為了比較模型性能,研究者提供了負對數困惑度的結果。

Switch Transformer 與 MoE Transformer 的比較結果如下表 1 所示。結果表明,Switch Transformer 在速度 - 質量(speed-quality)基礎上優于精心調整的稠密模型和 MoE Transformer,并在固定計算量和掛鐘時間情況下取得了最佳結果;Switch Transformer 的計算占用空間比 MoE Transformer 小;Switch Transformer 在低容量因子(1.0, 1.25)下表現更好。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

提升訓練和微調的技巧

與原版 Transformer 模型相比,稀疏專家模型在訓練時可能更加困難。所有這些層中的 hard-swithing(路由)決策都可能導致模型的不穩定。此外,像 bfloat16 這樣的低精度格式可能加劇 router 的 softmax 計算問題。研究者采取了以下幾種技巧來克服訓練困難,并實現穩定和可擴展的訓練。

對大型稀疏模型使用可選擇行精度(Selective precision with large sparse models)

為實現穩定性使用更小的參數初始化(Smaller parameter initialization for stability)

正則化大型稀疏模型(Regularizing large sparse models)

預訓練可擴展性

在預訓練期間,研究者對 Switch Transformer 的可擴展性進行了研究。在此過程中,他們考慮了一個算力和數據都不受限制的機制。為了避免數據受限,研究者使用了大型 C4 數據庫,里面包含 180B 的目標 token。在觀察到收益遞減之前,他們一直進行訓練。

專家的數量是擴展模型最有效的維度。增加專家的數量幾乎不會改變計算成本,因為模型只為每個 token 選擇一個專家,這與專家的總體數量無關。router 必須基于更多的專家計算概率分布,但這是一個輕量級的計算成本 O(d_model × num experts)。其中,d_model 是層與層之間所傳遞的 token 的嵌入維度。在這一部分,研究者以固定的計算成本考慮基于步數和時間的可伸縮性。

基于步數的可擴展性

下圖 4 展示了多個模型在訓練步數恒定、專家數量增加時表現出的可擴展性提升情況。從中可以觀察到一個趨勢:在保持每個 token 的 FLOPS 不變時,擁有更多的參數(專家)可以提高訓練速度。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

基于時間的可擴展性

如上圖 4 所示,隨著專家數量的增加,模型的性能會不斷提升。雖然模型的每個 token 擁有與基線近乎相同的 FLOPS,但 Switch Transformers 會產生額外的跨設備通信成本,路由機制也會帶來額外的計算開銷。因此,在基于步數的設置中觀察到的樣本效率提升未必能轉化為時間上的模型質量提升。這就引出了一個問題:

在訓練時間和計算成本都固定的前提下,我們應該訓練一個稠密模型還是稀疏模型?

下圖 5 和 6 解決了這個問題。圖 5 展示了預訓練模型質量隨訓練時間增加所產生的變化。在訓練時間和計算成本都固定的情況下,Switch Transformer 的速度優勢非常明顯。在這種設置下,如果要達到相似的困惑度,Switch-Base 64 專家模型的訓練時間僅為 T5-Base 模型的 1/7。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍
谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

可擴展性 VS. 一個更大的稠密模型

上面的實驗表明,一個計算不受限制的稠密模型已經被 Switch 超越。圖 6 考慮了一種不同的情況:如果把計算資源分給一個更大的稠密模型會怎么樣?

為了驗證這個問題,研究者將 Switch-Base 與更強的基線 T5-Large 進行了對比。實驗結果表明,盡管 T5-Large 每個 token 所用的 FLOPs 是 Switch-Base 的 3.5 倍,但后者的樣本效率依然更高,而且速度是前者的 2.5 倍。此外,如果設計一個與 T5-Large 所需 FLOPs 相同的 Switch 模型(Switch-Large),上述提升還會更加明顯。

下游任務中的結果

微調

這里使用的基線方法是經過高度調參、具備 223M 參數的 T5-Base 和具備 739M 參數的 T5-Large 模型。針對這兩個模型,該研究作者設計了具備更多參數的 FLOP-matched Switch Transformer。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

在多項自然語言任務中,Switch Transformer 帶來了顯著性能提升。最明顯的是 SuperGLUE,在該基準上 FLOP-matched Switch Transformer 相比 T5-Base 和 T5-Large 的性能分別提升了 4.4% 和 2%,在 Winogrande、closed book Trivia QA 和 XSum 上也出現了類似情況。唯一沒有觀察到性能提升的基準是 AI2 推理挑戰賽(ARC)數據集:在 ARC challenge 數據集上 T5-Base 的性能超過 Switch-Base;在 ARC easy 數據集上,T5-Large 的性能超過 Switch-Large。

整體而言,Switch Transformer 模型在多項推理和知識任務中帶來了顯著性能提升。這說明該模型架構不只對預訓練有用,還可以通過微調將質量改進遷移至下游任務中。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

蒸餾

部署具備十億、萬億參數量的大型神經網絡并非易事。為此,該論文研究了如何將大型稀疏模型蒸餾為小型稠密模型。下表 7 展示了該研究所用的蒸餾技術:

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

使用表 7 中最優的蒸餾技術后,研究者將多個稀疏模型蒸餾為稠密模型。他們對 Switch-Base 模型進行蒸餾,由于專家數量的不同,其參數量在 11 億至 147 億之間。該研究可以將具備 11 億參數量的模型壓縮 82%,同時保留 37% 的性能提升。最極端的情況下,將模型壓縮了 99%,且維持了 28% 的性能提升。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

最后,研究者將微調稀疏模型蒸餾為稠密模型。下表 9 展示了對 74 億參數 Switch-Base 模型(該模型針對 SuperGLUE 任務進行了微調)的蒸餾結果——223M T5-Base。與預訓練結果類似,蒸餾后的模型仍保留 30% 的性能提升。這可能有助于確定用于微調任務的特定專家并進行提取,從而獲得更好的模型壓縮。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

多語言學習

在下游任務實驗中,研究者衡量了模型質量和速度的權衡,模型在 101 種不同語言上進行了預訓練。下圖 7 展示了 Switch T5 Base 模型與 mT5-Base 在所有語言上的質量提升情況(負對數困惑度)。對兩個模型經過 100 萬步預訓練后,Switch Transformer 的最終負對數困惑度相較基線有所提升。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

下圖 8 展示了 Switch Transformer 相較 mT5-Base 的每一步加速情況,前者實現了平均 5 倍的加速,其中在 91% 的語言上實現了至少 4 倍加速。這表明 Switch Transformer 是高效的多任務和多語言學習器。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

使用數據、模型和專家并行化來設計模型

隨意地增加專家數量會出現收益遞減問題(參見上圖 4),該研究介紹了一些補充性的擴展策略,涉及結合數據、模型與專家并行化的權衡。

結合數據、模型與專家并行化,構建萬億參數模型

Switch Transformer 設計過程中,研究者試圖平衡 FLOPs per token 和參數量。當專家數量增加時,則參數量增加,但不改變 FLOPs per token。要想增加 FLOPs,則需增加 d_ff 維度(這也會帶來參數量的增加,但相對較少)。這就是一種權衡:增加 d_ff 維度會導致每個核心內存的耗盡,因而必須增加 m。但由于核心 N 的數量是固定的 N = n × m,因此必須降低 n,也就是說需要使用更小的批大小。

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

在結合模型并行化和專家并行化之后,發送 token 到正確的專家以及模型并行化導致的內部 all-reduce 通信會帶來 all-to-all 通信成本。在結合這三種方法時,如何平衡 FLOPs、通信成本和每個核心的內存變得非常復雜。

該研究結合數據、模型與專家并行化,設計了兩個大型 Switch Transformer 模型,分別具備3950 億參數1.6 萬億參數,并研究了這些模型在上游預訓練語言模型和下游微調任務中的性能。參數量、FLOPs 和不同模型的超參數參見下表 10:

谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍

關于 Switch Transformer 還有很多問題

在論文最后部分,谷歌大腦研究者探討了一些關于 Switch Transformer 和稀疏專家模型的問題(這里稀疏指的是權重,而不是注意力模式)。

問題 1:Switch Transformer 的性能更好嗎?原因是否在于巨量參數?

性能的確更好,但原因不在參數量,而在于設計。參數有助于擴展神經語言模型,大模型的性能確實會好一些。但是該研究提出的模型在使用相同計算資源的情況下具備更高的樣本效率。

問題 2:沒有超級計算機的情況下,我能使用該方法嗎?

盡管這篇論文聚焦非常大型的模型,但研究者仍找到了具備兩個專家的模型,既能提升性能又可以輕松適應常用 GPU 或 TPU 的內存限制。因此,研究者認為該技術可用于小規模設置中。

問題 3:在速度 - 準確率帕累托曲線上,稀疏模型的表現優于稠密模型嗎?

是的。在多種不同模型規模情況下,稀疏模型在每一步和墻上時鐘時間方面都優于稠密模型。受控實驗表明,對于固定的計算量和時間而言,稀疏模型的表現超過稠密模型。

問題 4:我無法部署萬億參數模型,可以將模型縮小嗎?

雖然無法完整維持萬億參數模型的質量,但通過將稀疏模型蒸餾為稠密模型,可實現 10-100 倍的壓縮率,同時獲得專家模型約 30% 的質量改進。

問題 5:為什么要使用 Switch Transformer 代替模型并行稠密模型?

以時間為基準,Switch Transformer 要比使用分片參數(sharded parameter)的稠密模型高效得多。同時,這一選擇并非互斥,Switch Transformer 中也可以使用模型并行化,這可以提高 FLOPs per token,但也會導致傳統模型并行化的減速。

問題 6:為什么稀疏模型未得到廣泛使用?

嘗試稀疏模型的想法被稠密模型的巨大成功所阻撓。并且,稀疏模型面臨著多個問題,包括模型復雜度、訓練難度、通信成本等。而 Switch Transformer 緩解了這些問題。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2019-07-22 16:55:46

神經網絡數據圖形

2023-01-17 09:38:17

模型訓練

2020-02-25 17:30:12

谷歌Android開發者

2020-05-12 10:43:30

谷歌算法人工智能

2022-06-15 07:42:00

谷歌T5模型

2019-07-18 08:54:42

谷歌Android開發者

2022-11-01 14:50:00

數據計算

2021-09-30 11:27:58

模型人工智能神經網絡

2025-12-22 08:48:00

AI模型訓練

2020-03-17 09:42:00

谷歌開源機器學習

2013-04-01 11:37:54

Oracle微處理器SPARC T5

2025-06-30 14:02:00

視覺模型AI

2021-11-26 10:18:37

AI 數據機器學習

2021-11-15 10:00:22

模型人工智能NLP

2020-05-14 14:21:50

谷歌AI數據

2021-07-13 17:59:13

人工智能機器學習技術

2013-05-15 13:05:17

SPARC T5M5Oracle

2023-03-14 14:09:00

訓練人工智能

2022-03-14 10:53:12

谷歌模型研究

2024-07-10 12:32:48

點贊
收藏

51CTO技術棧公眾號

久久精品97| 最新国产成人在线观看| 亚洲欧洲国产一区| 写真福利片hd在线观看| 日本不卡的三区四区五区| 欧美寡妇偷汉性猛交| 麻豆tv免费在线观看| 国产精品色婷婷久久58| 欧美一区国产一区| 99久久视频| 久久天天躁狠狠躁老女人| 色欧美激情视频在线| 国产精品污网站| 久久久久福利视频| 亚洲精品欧洲| 国产精品扒开腿爽爽爽视频| 亚洲精品大全| 亚洲成人aaa| 激情在线视频| 洋洋成人永久网站入口| 久久国产精品视频在线观看| 美女视频一区免费观看| 成人在线精品视频| 秋霞影院一区二区三区| 久久综合网hezyo| 欧美亚洲韩国| 日韩成人中文电影| 超碰超碰在线| 精品国产精品自拍| 日本按摩中出| 1区2区3区欧美| 黄色国产小视频| 99久久99久久综合| 成人一区二区av| 久久99九九99精品| 亚洲一区不卡在线| 日本成人中文字幕| 日产精品久久久一区二区| 久久裸体视频| 蜜桃av噜噜一区二区三区| 日韩视频二区| 精品中文字幕人| 中文在线不卡| 欧美性色黄大片人与善| 老司机精品久久| 视频一区二区在线| 日韩精品三区四区| 日本精品免费| 麻豆视频一区二区| 国产又粗又猛又爽又黄的网站| 成人国产精品免费观看动漫| 成年人看的毛片| 91视频在线看| 国产真实生活伦对白| 曰韩精品一区二区| 台湾av在线二三区观看| 欧美性生活一区| 久草中文在线| 亚洲日本中文字幕| 一本色道69色精品综合久久| 欧美一级成年大片在线观看| 日韩在线中文| 欧美一区1区三区3区公司 | 午夜影院在线| 亚洲大片一区二区三区| 国产精品久久..4399| 欧美韩日精品| 91大神福利视频在线| 超碰在线亚洲| 欧美成人一区二区三区在线观看| 黄页免费观看| 成人小视频免费观看| 国产精品视频xxxx| 国产不卡精品在线| 欧美手机在线视频| 4虎在线播放1区| 亚洲欧洲一区二区天堂久久| 久久久免费高清电视剧观看| 岛国最新视频免费在线观看| 国产欧美日韩久久| 亚洲爆乳无码专区| 亚洲高清不卡在线观看| 国产高清一区二区三区视频| 日韩性xxxx爱| 日韩中文在线电影| 亚洲一区三区在线观看| 中文字幕一区在线观看| 操你啦视频在线| 久久6免费高清热精品| 日韩精品影视| 蜜臀av.com| 欧美性猛交xxxx富婆| 欧美黑人粗大| 91亚洲永久免费精品| 成人精品电影在线观看| 日韩美女一级视频| 日韩中文在线观看| 一本久道久久综合婷婷鲸鱼| 国产男女在线观看| 欧美日韩精品一区二区三区蜜桃| 秋霞一区二区| 亚洲欧美久久234| 精品国产电影一区| 日韩欧美中文字幕在线视频 | gogo亚洲高清大胆美女人体| 91牛牛免费视频| 久久久久久久久久久久久女国产乱| 成a人v在线播放| 国产精品精品视频| 2023国产精品| 91色在线看| 国产伦视频一区二区三区| 国产精品伦一区二区三级视频| 三妻四妾的电影电视剧在线观看| 成人久久精品视频| 中文字幕精品三区| av在线日韩| 日韩欧美在线观看强乱免费| 精品女同一区二区三区在线播放| julia中文字幕一区二区99在线| 五月天久久狠狠| 精品视频一区二区三区免费| 天天躁日日躁狠狠躁欧美巨大小说| 777精品久无码人妻蜜桃| 亚洲区免费影片| 久久精品国产网站| 激情在线小视频| 91精品综合久久| 黄色精品一区二区| 日韩国产欧美| 永久免费不卡在线观看黄网站| 久久国产精品影片| 99国产一区二区三精品乱码| 超碰aⅴ人人做人人爽欧美| 特级西西444www大精品视频| 在线观看视频一区二区| 欧美激情1区2区| 九色视频在线播放| 亚洲一区二区日本| 色屁屁一区二区| 狠狠综合久久| 中日韩高清电影网| 欧美高清性xxxxhd| 精品sm在线观看| 美国毛片一区二区| 色尼玛亚洲综合影院| 国产欧美精品aaaaaa片| 在线免费看av不卡| 2017欧美狠狠色| 色天下一区二区三区| 亚洲精品一区二区| 91网站在线看| 3atv在线一区二区三区| 视频一区二区中文字幕| 亚洲精品一区| 91国视频在线| 在线视频一区二区三| 国产综合久久| 四虎视频在线精品免费网址| 美臀av在线| 黄色网页免费在线观看| 国产精品对白刺激久久久| 欧美夫妻性生活xx| 亚洲精品99久久久久| 亚洲成人动漫一区| 国产成人免费在线观看| 亚洲草久电影| 榴莲视频成人app| 色噜噜狠狠狠综合欧洲色8| 91青娱乐在线视频| 女人喷潮完整视频| 亚洲精品视频一二三| 96pao国产成视频永久免费| 97精品视频在线播放| 日韩一区二区三区在线| 91久色porny| 久久精品72免费观看| 成人午夜国产| 成人做爰视频www| 大片免费播放在线视频| 2025韩国理伦片在线观看| 亚洲欧美日韩不卡一区二区三区| 青青草精品毛片| 一区二区三区国产在线观看| 日本精品视频一区二区三区| 中文字幕精品一区二区三区精品| 久久精品国产秦先生| 99久久www免费| 国产香蕉精品| 你懂得影院夜精品a| 精品999视频| 97香蕉久久| caoporn97免费视频公开| 久久婷婷国产精品| 18性欧美xxxⅹ性满足| 亚洲夂夂婷婷色拍ww47| 久久亚区不卡日本| 波多野结衣91| 91免费看视频| 91麻豆视频网站|