国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

人工智能
最近Google Brain的首席Quoc發布了一個搜索框架,能夠自動搜索高效率的Transformer變體,并找到一些有效的模型Primer,其中ReLU加個平方竟然能提升最多性能!

 [[426884]]

調參、改激活函數提高模型性能已經見怪不改了。最近Google Brain的首席Quoc發布了一個搜索框架,能夠自動搜索高效率的Transformer變體,并找到一些有效的模型Primer,其中ReLU加個平方竟然能提升最多性能!

目前自然語言處理領域發展的紅利都來自于大型的、基于Transformer的語言模型,但這些語言模型的訓練成本、推理成本都高到勸退平民煉金術師。

而當模型參數量大到一定程度的時候,研究人員也在考慮如何在縮小模型的情況下,保持性能不變。

Google Brain團隊最近在arxiv 上傳了一篇論文,目標是通過尋找更高效的Transformer 變體來降低訓練和推理成本。

與之前的方法相比,新提出的方法在更低級別上執行搜索,在Tensorflow 程序的原語上定義和搜索 Transformer。并提出了一種名為 Primer 的模型架構,訓練成本比原始 Transformer 和用于自回歸語言建模的其他模型變體要更小。

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

https://arxiv.org/abs/2109.08668

論文的作者是大神 Quoc V. Le,在斯坦福讀博期間導師是吳恩達教授,目前是谷歌的研究科學家,Google Brain 的創始成員之一;seq2seq的作者之一;谷歌AutoML的奠基人,提出包括神經架構等方法;EfficientNet的作者等。

[[426885]]

研究人員使用TensorFlow(TF)中的操作來構造Transformer 變體的搜索空間。在這個搜索空間中,每個程序定義了自回歸語言模型的可堆疊解碼器塊。給定輸入張量是一個長度為n且嵌入長度為d的序列,程序能夠返回相同形狀的張量。

堆疊時,其輸出表示每個序列位置的下一個token的預測embedding,并且程序只指定模型架構,沒有其他內容。換句話說,輸入和輸出embedding矩陣本身以及輸入預處理和權重優化不在這個程序的任務范圍內。

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

解碼器模型程序(DNA, decoder model program)定義了一個自回歸語言模型,每個DNA都有一組子程序,其中子程序0是MAIN函數的入口點。每個子程序都由指令組成,這些指令被轉換為TensorFlow代碼行。

指令操作映射到原語詞匯表中的基本TensorFlow庫函數或父DNA子程序之一,原語詞匯表由簡單的原語TF函數組成,如ADD、LOG、MATMUL等等,但像self-attention這樣的高級構建塊不是搜索空間中的操作,自注意力可以從低級操作中構建出來的。

DNA的子程序庫由附加程序組成,這些程序可以通過指令作為函數執行。每個子程序只能調用子程序庫中索引較高的子程序,這樣就消除了循環的可能性。

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

使用父指令的參數集填充操作的參數,該參數集包含所有潛在操作參數的值,參數包括Input 1( 用作第一個tensor輸入的隱藏狀態的索引)、Input 2(第二個tensor輸入的隱藏狀態的索引)、Constant(實值常數,可以用于MAX等函數)、Dimensionsize(用來表示輸出維度大小的整數)。特定操作中沒有使用的參數就直接被省略掉。

研究人員還提出進化搜索(evolutionary search),目標是在搜索空間中找到最有效的模型架構。主要方法是設計一個固定的訓練預算(使用TPUv2限時24小時),并將其適應性指標定義為Tensor2Tensor中One Billion Words Benchmark (LM1B)上的困惑度。

這些架構搜索工作的明確目標是在優化效率時減少訓練或推理步驟時間,在搜索過程中,可以發現將步長時間增加一倍、采樣效率提高三倍是一個不錯的修改方案,因為它最終使模型架構的計算效率更高。還可以將ReLUs平方化,并在注意力上增加深度卷積,從而增加訓練步長時間。

這些操作極大地提高了模型的采樣效率,通過大幅減少達到目標質量所需的訓練步驟數量,減少了達到目標性能所需的總計算量。

通過這個搜索程序找到的模型被研究人員命名為Primer,也就是原語搜索Transformer(PRIMitives searched transformER)。

Primer 的改進主要有平方 ReLU 激活并在自注意力中的每個 Q、K 和 V 投影后添加一個深度卷積層。

最有效的修改是將變Transformer前饋塊中的ReLU激活改進為平方ReLU激活函數,這也是第一次證明這種整流多項式激活在Transformer 中有用。并且高階多項式的有效性也可以在其他Transfomer 非線性激活函數中觀察到,例如GLU 的各種變體,ReGLU、近似GELU等。然而平方ReLU與最常用的激活功能相比 ReLU、GELU和Swish 具有截然不同的漸近性。

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

平方ReLU確實與ReGLU有顯著重疊,事實上,當ReGLU的U和V權重矩陣相同時,平方ReLU與ReLU是等效的。并且平方ReLU在更簡單的同時,也能獲得GLU變體的好處,且無需額外參數,并提供更好的質量。

研究人員使用三個Transformer 變體與Primer 進行對比:

1、Vanilla Transformer: 原始Transformer,使用ReLU激活和layer normalization。

2、Transformer+GELU: Transformer的常用變體,使用GELU近似激活函數

3、Transformer++: 使用RMS歸一化、Swish激活和GLU乘法分支在前饋反向瓶頸(SwiGLU)中。這些修改在T5 中進行了基準測試,并被表明是有效的。

實驗表明,隨著計算規模的增長,Primer 相對于 Transformer 的收益會增加,并且在最佳模型大小下遵循與質量相關的冪律。

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

研究人員還憑經驗驗證了 Primer 可以放入不同的代碼庫,發現可以顯著加快訓練速度,而無需額外調整。例如,在 500M 的參數大小下,Primer 在 C4 自回歸語言建模上改進了原始 T5 架構,將訓練成本降低了 4 倍。

此外,降低的訓練成本意味著 Primer 需要更少的計算來達到目標one shot性能。例如,在類似于 GPT-3 XL 的 1.9B 參數配置中,Primer 使用 1/3 的訓練計算來實現與 Transformer 相同的一次性性能。

研究人員已經開源了模型,以幫助提論文可重復性。

谷歌大腦Quoc發布Primer,從操作原語搜索高效Transformer變體

 

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-06-29 15:33:28

谷歌Transformer模型

2020-01-23 15:19:26

谷歌Android開發者

2012-10-08 10:47:41

谷歌虛擬大腦

2018-05-23 09:28:23

2025-04-10 10:44:00

2023-04-20 14:48:05

微軟AIChatGPT

2025-07-18 09:31:10

2023-09-21 10:29:01

AI模型

2021-01-26 15:32:40

機器學習人工智能計算機

2020-11-29 20:24:13

數據谷歌DeepMind

2020-09-27 10:37:51

谷歌Transformer機器學習

2009-03-25 08:48:17

AndroidGoogle移動OS

2025-03-31 08:12:00

模型AI訓練

2022-09-26 15:23:38

模型Transforme

2023-01-27 13:32:51

大腦模型模仿

2025-09-26 09:15:40

2021-05-06 15:55:01

谷歌Android開發

2014-06-26 11:04:49

Android L

2014-07-21 09:18:26

谷歌Google Brai

2025-12-12 08:55:00

點贊
收藏

51CTO技術棧公眾號

亚洲人挤奶视频| 亚洲人成伊人成综合图片| 91亚洲资源网| 国产区欧美区日韩区| 天天综合在线观看| 欧美性猛片xxxx免费看久爱| 好男人www社区| 日本伊人午夜精品| 国产欧美亚洲视频| 一区二区日韩| 这里只有精品在线播放| av官网在线播放| 狠狠色噜噜狠狠狠狠97| 杨幂毛片午夜性生毛片 | 亚洲天堂网中文字| 性做爰过程免费播放| 欧美私人啪啪vps| 国产精品免费电影| 成人在线超碰| 日韩性生活视频| 黄色漫画在线免费看| 国产成人一二| 日韩不卡av| 欧美精品tushy高清| 干日本少妇首页| 小草在线视频在线免费视频| 91丨porny丨在线| 亚洲一区二区三区加勒比 | 欧美大片1688| 欧美成人性福生活免费看| 亚洲黄色小视频| 女人喷潮完整视频| 国产专区精品视频| 国产一区二区久久久久| 亚洲精品wwwww| av毛片在线免费看| 欧美一区二区三区性视频| yourporn在线观看中文站| 日韩欧美中文字幕在线观看| 在线观影网站| 日韩欧美国产高清91| 免费av在线电影| 91国偷自产一区二区开放时间| 香蕉视频免费在线| 日韩欧美中文第一页| 牛牛澡牛牛爽一区二区| 天天综合天天综合色| 一区二区成人| 色哦色哦哦色天天综合| 伦理片一区二区三区| 一区二区蜜桃| 国产成人h网站| 日本一道在线观看| zzijzzij亚洲日本少妇熟睡| 嫩草影院中文字幕| 91在线视频播放地址| 羞羞网站在线观看入口免费| 亚洲男同1069视频| 日本韩国一区| 日韩欧美国产电影| 电影亚洲一区| 2018日韩中文字幕| 欧美精品国产| 亚洲欧美一区二区原创| 国产成人午夜99999| 污污的网站18| 亚洲va天堂va国产va久| 麻豆传媒视频在线| 日韩在线资源网| 国产不卡一区| 久久久久久久久一区| 国产一区二区三区黄视频| 看欧美ab黄色大片视频免费| 亚洲综合男人的天堂| 最新电影电视剧在线观看免费观看| 精品福利视频一区二区三区| 欧美黄页在线免费观看| 日韩av免费看| 日韩精品免费专区| 女人另类性混交zo| 色8久久人人97超碰香蕉987| 国产在线美女| 青青草精品毛片| 老鸭窝毛片一区二区三区| 免费一级特黄特色毛片久久看| 一区二区欧美国产| 好看的中文字幕在线播放| 国产精品123区| 久久久久久91| 欧美精品九九| 久久手机在线视频| 欧美日韩在线影院| 欧美黄色网页| 青青青国产精品一区二区| 亚洲欧美日本视频在线观看| 99免费视频观看| 欧美日韩aaa| 97se亚洲国产一区二区三区| 激情欧美一区二区三区中文字幕| 91老师片黄在线观看| 邻居大乳一区二区三区| 自拍偷拍亚洲区| 欧美日韩亚洲一区| 亚洲视频在线a| 欧美一区二区视频在线观看2022 | 精品一区二区三区亚洲| 国产日韩中文字幕在线| 久久电影网电视剧免费观看| 国产对白国语对白| 日韩精品久久久久久福利| 精品久久网站| 亚洲欧洲日产国码无码久久99| 欧美自拍偷拍一区| 里番精品3d一二三区| 热久久最新地址| 欧美日韩精品一区二区| 一区二区三区韩国免费中文网站| 日本成人性视频| 色噜噜狠狠成人中文综合 | 久久久久久久午夜| 精品毛片免费观看| 欧美日韩成人免费视频| 91精品国产色综合久久不卡电影| 免费av一区二区三区四区| 人人妻人人澡人人爽欧美一区双 | 日韩欧美中文字幕在线播放| 精品视频成人| 偷拍盗摄高潮叫床对白清晰| 欧美三级在线视频| 国产成人精品一区二区免费看京| 欧美精品卡一卡二| 日韩精品中文字幕一区| 久久成人精品电影| 欧美精品福利在线| 日韩欧美成人一区| 日韩最新在线| aaaaaa亚洲| 综合av色偷偷网| 精品一区二区久久| 欧美精品日韩少妇| 亚洲免费观看高清完整版在线观看熊 | 欧美日产一区二区三区在线观看| 久久亚洲精品小早川怜子| 国产超级va在线视频| 国产综合福利在线| 国产精品大尺度| 超碰精品在线| 超碰在线97免费| 欧美成人国产va精品日本一级| 黑人巨大精品欧美黑白配亚洲| av免费在线免费| 亚洲综合影视| 一区二区欧美在线| 国产精品22p| 精品一区二区三区影院在线午夜| 国产欧美激情| 久草福利在线视频| 91精品91久久久久久| av高清久久久| 91精品国产色综合久久不卡粉嫩| 干日本少妇视频| 欧美tickling网站挠脚心| 国产精品久久久亚洲一区| av电影在线网| 欧美精品尤物在线| 亚洲精品一区二区三区99| 一级成人国产| 羞羞视频在线观看不卡| 色综合久久88色综合天天提莫| 精品日韩欧美一区二区| 秋霞午夜鲁丝一区二区老狼| av资源新版天堂在线| 黄色一级片网址| 日韩中文字幕网址| 国产视频在线观看一区二区三区| 午夜日韩影院| 91破解版在线看| 国产精品免费在线播放| 日韩精品一区二区三区四区视频| 日韩电影在线一区| www.26天天久久天堂| 色综合天天色综合| 91久久国产综合久久91精品网站| 91久久线看在观草草青青| 一本综合久久| 日韩经典一区| 亚洲an天堂an在线观看| 成人xxxxx| 精品国产伦一区二区三区免费| 国产精品18久久久| 首页亚洲中字| 91视频在线观看| 糖心vlog在线免费观看| 欧美激情喷水视频| 天涯成人国产亚洲精品一区av| 亚洲大片在线| 视频在线日韩| 色视频www在线播放| 亚洲精品在线视频观看| 欧美国产乱视频|