国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

新聞 人工智能
最近的研究表明,在 Post-LN transformer 中,與較早層的網絡相比,在較后層的網絡中具有更大的梯度幅度。

  [[431684]]

在原始的 Transformer 架構中,LayerNorm 通常在 Residual 之后,稱之為 Post-LN(Post-Layer Normalization)Transformer,該模型已經在機器翻譯、文本分類等諸多自然語言的任務中表現突出。

最近的研究表明,在 Post-LN transformer 中,與較早層的網絡相比,在較后層的網絡中具有更大的梯度幅度。

實踐表明,Pre-LN Transformer 可以使用更大的學習率、極小的學習率進行預熱(即 warm-up),并且與 Post-LN Transformer 相比通常會產生更好的性能,所以最近大型預訓練語言模型傾向于使用 Pre-LN transformer。

來自 Facebook AI 的研究者表明,雖然 Pre-LN 比 Post-LN 提高了穩定性,但也具有缺點:較早層的梯度往往大于較后層的梯度。這些問題可以通過該研究提出的 NormFormer 來緩解,它通過向每一層添加 3 個歸一化操作來緩解梯度幅度不匹配問題(見圖 1,中間):自注意力之后添加層歸一,自注意力輸出的 head-wise 擴展,在第一個全連接層之后添加層歸一。這些操作減少了早期層的梯度,增加了后期層的梯度,使不同層的梯度大小更接近。

此外,這些額外的操作產生的計算成本可以忽略不計(+0.4% 的參數增加),但這樣做可以提高模型預訓練困惑度和在下游任務的表現,包括在 1.25 億參數到 27 億參數的因果模型和掩碼語言模型的性能。例如,該研究在最強的 1.3B 參數基線之上添加 NormFormer 可以將同等困惑度提高 24%,或者在相同的計算預算下更好地收斂 0.27 倍困惑度。該模型以快 60% 的速度達到了與 GPT3-Large (1.3B)零樣本相同的性能。對于掩碼語言模型,NormFormer 提高了微調好的 GLUE 性能,平均提高了 1.9%。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

論文地址:https://arxiv.org/pdf/2110.09456.pdf

與計算匹配、微調好的 Pre-LN 基線相比,NormFormer 模型能夠更快地達到目標預訓練的困惑度,更好地實現預訓練困惑度和下游任務性能。

論文一作 Sam Shleifer 在推特上表示:很高興發布 NormFormer,這是我們新的語言建模架構,在實驗過的每個擴展(高達 2.7B 參數)上都優于 GPT-3。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

來自魁北克蒙特利爾學習算法研究所的機器學習研究者 Ethan Caballero 表示:「更多的歸一化 is All You Need,在 GPT-3 架構中使用 NormFormer 達到了 SOTA 性能, 速度提高了 22%,并在下游任務中獲得了更強的零樣本性能?!?/p>

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

方法架構

NormFormer 對 Pre-LN transformer 做了三處修改:在注意力模塊內部應用 head-wise 縮放,并添加兩個額外的 LayerNorm 操作(一個放在注意力模塊后面,另一個放在首個全連接層后面)。這些修改引入了少量額外的可學得參數,使得每個層都能以經濟高效的方式改變特征大小,進而改變后續組件的梯度大小。這些變化的細節如下圖 1 所示:

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

縮放注意力頭。標準多頭注意力操作定義如下:

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

研究者提出通過學得的標量系數γ_i 縮放每個注意力頭的輸出:

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

額外層歸一化以及將所有組件放在一起。在 Pre-LN transformer 中,每個層 l 將輸入 x_l 做出如下修改:

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

相反,NormFormer 將每個輸入 x_l 修改如下:

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

其中,新引入了 bolded operations。

實驗結果

對于因果語言模型(Casual Language Model),研究者預訓練的 CLM 模型分別為 Small(1.25 億參數)、Medium(3.55 億參數)、Large(13 億參數)和 XL(27 億參數)。

他們訓練了 3000 億個 token 的基線模型,并用等量的 GPU 小時數訓練 NormFormer 模型,由于歸一化操作的額外開銷,后者通常會減少 2%-6% 的 steps 和 tokens。

在使用的數據集上,研究者發現 GPT-3 中提出的學習率不是最理想的。因此,對于除了 27 億參數之外的每個大小的基線和 NormFormer 模型,他們通過訓練 5 萬 steps 的模型并從 {1e−4, 6e−4, 3e−4, 6e−4, 1e−3, 3e−3} 中選擇性能最佳的學習率來對學習率進行調整。這一過程中獲得的學習率如下表 1 所示,NormFormer 的學習率是 GPT-3 的 3-5 倍。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

對于掩碼語言模型(Masked Language Model, MLM),研究者采用了 Liu et al. (2019)中使用的 RoBERTa-base、Pre-LN 架構和超參數。對于基線模型,他們對 100 萬個 token 預訓練了 200 萬個 batch,是原始 roberta-base 訓練預算的 1/4。相較之下,NormFormer 在相同時間內運行了 192 萬個 batch。

對于預訓練數據,研究者在包含 CC100 英語語料庫以及由 BookCorpus、英文維基百科和 Common Crawl 過濾子集組成的 Liu et al. (2019)的數據英語文本集合上對所有模型進行預訓練。

在下圖 2 中,研究者將 CLM 和 MLM 的預訓練困惑度表示訓練時間,即 GPU days??梢钥吹剑琋ormFormer 的訓練速度明顯更快,并且在給定訓練計算預算下實現了更好的驗證困惑度。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

研究者在下游任務上也觀察到了類似的趨勢。如下表 2 所示,研究者使用 Brown et al. (2020)中的任務和 prompt 來觀察 CLM 模型的零樣本準確率。同樣地,NormFormer 在所有大小上均優于 GPT-3。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

對于 MLM 模型,研究者在下表 3 中報告了在 GLUE 上的微調準確率。再次,NormFormer MLM 模型在每個任務上都優于它們的 Pre-LN 模型。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

為了度量架構的穩定性,研究者使用具有極大峰值學習率的學習率計劃對其進行訓練,使得學習率每個 step 增加一點,直到損失爆炸。圖 5 顯示了與基線相比,NormFormer 模型在此環境中可以承受更多的更新。

歸一化提高預訓練、緩解梯度不匹配,Facebook的模型超越GPT-3

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-03-23 15:21:00

人工智能機器學習技術

2022-03-30 15:20:19

AI自然語言模型

2022-03-14 09:33:56

神經網絡模型人工智能

2022-06-23 15:54:15

NLP訓練

2022-05-05 09:00:00

AI模型數據

2022-06-01 16:47:53

AI模型開源

2022-03-24 10:35:38

人工智能模型代碼

2023-12-04 13:38:55

模型3D可視化

2025-10-24 10:41:33

2023-02-16 13:48:56

模型論文

2022-05-26 05:37:00

人工智能機器學習AI

2021-09-08 17:23:33

谷歌模型開發

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2023-03-01 16:15:16

2021-01-19 16:34:30

開源技術 GPT-3

2022-01-06 09:57:02

數據計算機神經網絡

2023-06-08 15:33:31

人工智能GPT-3

2022-11-21 09:34:33

AI模型

2022-12-27 13:36:09

點贊
收藏

51CTO技術棧公眾號

一区二区三区精品视频在线| 亚洲一区www| 日韩中文字幕亚洲精品欧美| 国产一区二区三区亚洲| 91精品久久久久久久99蜜桃| av毛片免费看| 国产精品456| 成人做爰www免费看视频网站| av成人在线播放| 欧美三级一区二区| 韩国av电影免费观看| 成人a区在线观看| 日韩午夜视频在线观看| 91精品观看| 欧美一级淫片videoshd| 日韩在线影院| 日韩三级av在线播放| 欧美拍拍视频| 中文字幕一区免费在线观看| 久久av综合网| 久久精品国产在热久久| 久久久综合亚洲91久久98| 一个色综合网| 成人久久一区二区| 欧美影院一区二区三区| 成人美女免费网站视频| 另类春色校园亚洲| 在线成人激情视频| 中文字幕在线播放网址| 日韩欧美亚洲综合| 阳光姐妹淘韩国版| **欧美大码日韩| 国产欧美在线一区| 国产一区二区成人久久免费影院| 久久99精品久久久久久久青青日本| 欧美熟乱15p| 欧美中文在线字幕| 久久久久久久久久久久久久久久av| 国产aⅴ精品一区二区三区黄| 97久久亚洲| 日日骚av一区| 成人国产激情在线| 在线精品高清中文字幕| 国产伦子伦对白在线播放观看| 欧美日韩国产经典色站一区二区三区 | 精品国产一区二区三区久久| 在线亚洲人成| 亚洲欧美自拍一区| 欧美日韩在线精品一区二区三区激情综合 | 中文字幕日韩精品在线| 乡村艳史在线观看| 亚洲美女喷白浆| 亚洲欧美韩国| 亚洲图片在区色| 99riav视频一区二区| 最近2019年中文视频免费在线观看| 色猫猫成人app| 一区二区三区动漫| 日韩精品成人| 日本久久久久久久| 日本不卡高清| 91视频婷婷| 日本亚洲最大的色成网站www| 日本黄色a视频| 99精品欧美一区二区三区综合在线| 午夜在线观看av| 一区二区三区美女视频| 久久久pmvav| 亚洲国产成人精品女人久久久 | 亚洲精品美女久久久久| 欧美sm一区| 欧美精品日韩www.p站| 久久成人av| 精品视频导航| 不卡免费追剧大全电视剧网站| 激情综合网五月激情 | 在线播放网站| 欧美日韩久久久久久| 欧美男男tv网站在线播放| 美女精品视频一区| 精品欧美久久| 日韩精品久久一区| 久久免费视频色| 深夜视频在线免费| 亚洲人成电影网站色| 亚洲精品国产动漫| 日韩av一区二区三区在线 | 国内精品二区| 国产高清无密码一区二区三区| 亚洲这里只有精品| 欧美精品乱码久久久久久按摩| 日本精品不卡| 国产精品国产三级国产aⅴ9色| 亚洲精品少妇| ww国产内射精品后入国产| 亚洲v中文字幕| 亚洲妇女成熟| 91免费电影网站| 97久久超碰国产精品| 国产在线三区| 色综合久久悠悠| 麻豆精品网站| 五月伊人六月| 亚洲乱码一区二区| 欧美顶级大胆免费视频| 丝袜人妻一区二区三区| 欧美日韩精品在线播放| 久久99国产精品二区高清软件| av在线不卡一区| 欧美国产日韩亚洲一区| 男女在线观看视频| 国产欧美精品日韩| 久久免费美女视频| 亚洲性色av| 国产精品入口免费| 亚洲欧美电影一区二区| 国产精品99| 三级三级久久三级久久18| 亚洲午夜精品久久久久久久久| 久久久久黄色| 亚洲国产一区在线| 色欧美日韩亚洲| 亚洲涩涩av| 久久美女福利视频| 亚洲精品www久久久| 欧美人成在线| 免费一级网站| 久青草国产97香蕉在线视频| 久久成人精品无人区| 在线视频婷婷| 国产男人精品视频| 亚洲女人小视频在线观看| 99视频有精品高清视频| 中日韩在线视频| 欧美一级理论片| 香港欧美日韩三级黄色一级电影网站| 91人人澡人人爽人人精品| 中文字幕日韩av综合精品| 麻豆精品一区二区综合av| 日本不卡不卡| 97久草视频| 欧美三级xxx| 欧美美女一区| 福利视频午夜| 18性欧美xxxⅹ性满足| 久久综合色之久久综合| 日韩欧美精品电影| 麻豆视频传媒入口| 日韩成人av网| 国产在线精品视频| 大胆人体一区二区| 欧美性受xxxx黑人猛交88| 日韩av综合中文字幕| 免播放器亚洲一区| 波多野结衣精品| 一级做a爰片久久| 亚洲国产日韩欧美在线动漫| 免费在线观看一区二区三区| 欧美6一10sex性hd| 性欧美18一19内谢| 在线精品91av| 国产日韩成人精品| 亚洲涩涩av| 日本成人一区| 麻豆传媒一区二区| 亚洲国产一区自拍| 成人成人成人在线视频| 亚洲精品三区| 成人亚洲在线观看| 成人黄色av播放免费| 欧美日韩色综合| 免费人成精品欧美精品| 精品欧美日韩精品| 日韩福利视频在线| 国产精品免费久久久久影院| 色狠狠色狠狠综合| 热久久免费视频| 亚洲精品在线影院| 久久国产这里只有精品| 成人性生交大片免费看视频直播| 欧美视频三区在线播放| 精品一区二区在线观看| 91成人小视频| 动漫成人在线| 国产尤物99| 亚洲深夜福利在线| 日本一区二区视频在线| 青青草91久久久久久久久| 久久久久久国产精品免费无遮挡| 手机福利在线视频| 97精品一区二区三区| 欧美天天综合色影久久精品| 日韩和的一区二区| 欧美电影院免费观看| 五丁香在线视频| 一区二区在线高清视频| 久久久久久久久久久免费| 欧美视频精品在线| 久久夜色精品国产欧美乱极品| 99久久亚洲精品蜜臀|