国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升

發(fā)布于 2024-4-7 10:01
瀏覽
0收藏

谷歌終于更新了Transformer架構(gòu)。


最新發(fā)布的Mixture-of-Depths(MoD),改變了以往Transformer計算模式。


它通過動態(tài)分配大模型中的計算資源,跳過一些不必要計算,顯著提高訓(xùn)練效率和推理速度。


結(jié)果顯示,在等效計算量和訓(xùn)練時間上,MoD每次向前傳播所需的計算量更小,而且后訓(xùn)練采樣過程中步進速度提高50%


這一方法剛剛發(fā)布,就馬上引發(fā)關(guān)注。


MoE風(fēng)頭正盛,MoD已經(jīng)來后浪拍前浪了?

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

還有人開始“算賬”:

聽說GPT-4 Turbo在Blackwell上提速30倍,再加上這個方法和其他各種加速,下一代生成模型可以走多遠(yuǎn)?

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

所以MoD如何實現(xiàn)?

迫使大模型關(guān)注真正重要信息

這項研究提出,現(xiàn)在的大模型訓(xùn)練和推理中,有很多計算是沒必要的。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

比如預(yù)測下一個句子很難,但是預(yù)測句子結(jié)束的標(biāo)點符號很簡單。如果給它們分配同樣的計算資源,那么后者明顯浪費了。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

在理想情況下, 模型應(yīng)該只給需要準(zhǔn)確預(yù)測的token分配更多計算資源。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

所以研究人員提出了MoD


它在輸入序列中的特定位置動態(tài)分配FLOPs(運算次數(shù)或計算資源),優(yōu)化不同層次的模型深度中的分配。


通過限制給定層的自注意力和MLP計算的token數(shù)量,迫使神經(jīng)網(wǎng)絡(luò)學(xué)會主要關(guān)注真正重要的信息。


因為token數(shù)量是事先定義好的,所以這個過程使用一個已知張量大小的靜態(tài)計算圖,可以在時間和模型深度上動態(tài)擴展計算量。


下圖右上圖中的橙色部分,表示沒有使用全部計算資源。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

這種方法在節(jié)省計算資源的同時,還能提高效率。


這些模型在等效的FLOPS和訓(xùn)練時間上與基線性能相匹配,但每次前向傳播所需的FLOP更少,并且在訓(xùn)練后采樣時提速50%。


對比來看,如果為每一個token生成一個概率分布,每個token根據(jù)最高概率被送去對應(yīng)的“專家”,可能會導(dǎo)致負(fù)載不平衡。


如果反過來,這能保障負(fù)載平衡,但是可能導(dǎo)致某些token被過度處理或處理不足。


最后來看論文中使用的Expert-choice MoD,router輸出的權(quán)重被用于確定哪些token將使用transformer虧啊計算。權(quán)重較大的token將參與計算,權(quán)重較小的token將通過殘差連接繞過計算,從而解決每次向前傳播的FLOPs。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

最后,研究團隊展示了MoD在不同實驗中的性能表現(xiàn)。


首先,他們使用相對較小的FLOP預(yù)算(6e18),以確定最佳超參數(shù)配置。


通過這些實驗,作者發(fā)現(xiàn)MoD方法能夠“拉低并向右推移”isoFLOP基線曲線,這意味著最優(yōu)的MoD方法在更低的損失水平上擁有更多的參數(shù)。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

通過isoFLOP分析,比較6e18、2e19和1e20 FLOPs的總計算預(yù)算下的模型性能。


結(jié)果顯示,在更多FLOP預(yù)算下,F(xiàn)LOP最優(yōu)的MoD仍然比基線模型有更多的參數(shù)。


存在一些MoD變體,在步驟速度上比isoFLOP最優(yōu)基線模型更快,同時實現(xiàn)更低的損失。這表明在訓(xùn)練之外,MoD的計算節(jié)省仍然有效。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

同時,研究團隊還探討了MoD和MoE結(jié)合的可能性——MoDE。


結(jié)果表明而這結(jié)合能提供更好的性能和更快的推理速度。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

網(wǎng)友:聯(lián)想到了ResNet

MoD推出后馬上引發(fā)了不小關(guān)注。


有人感慨,MoE還沒有弄清楚呢,MoD都已經(jīng)來了!

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

這么高效的方法,讓人馬上聯(lián)想到了ResNet。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

不過和ResNet不同,MoD跳過連接是完全繞過層的。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

還有人表示,希望這種方法是完全動態(tài)的,而不是每個層固定百分比。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

這項研究由DeepMind和麥吉爾大學(xué)共同帶來。


主要貢獻者是David Raposo和Adam Santoro。

谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)


谷歌更新Transformer架構(gòu),更節(jié)省計算資源!50%性能提升-AI.x社區(qū)

他們二人都是DeepMind的研究科學(xué)家。此前共同帶來了神作《Relational inductive biases, deep learning, and graph networks》。


這篇論文目前被引次數(shù)超過3500次,論文核心定義了Inductive bias(歸納偏置)概念。


論文地址:???https://arxiv.org/abs/2404.02258??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/Xqnv2L9X4KRkfpTaw7B0SA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
高清国产一区二区三区| 777久久久精品| 高清视频在线观看一区| 女同视频在线观看| 亚洲国产aⅴ成人精品无吗| 欧美 日韩 激情| 久久 天天综合| 久久精品丝袜高跟鞋| 国产精品午夜一区二区三区| 日韩在线观看高清| 涩涩视频在线播放| 欧美精选在线播放| 你懂的在线看| 亚洲免费av高清| 日本一极黄色片| av一区二区三区在线| 水蜜桃亚洲精品| 91久久夜色精品国产九色| 国产精品自拍偷拍视频| 国产精品xxxav免费视频| 久久色在线播放| 成人黄色免费短视频| 日韩高清免费观看| 肉肉视频在线观看| 欧美福利电影网| 秋霞午夜在线观看| 欧美精品丝袜中出| 老司机在线视频二区| 777a∨成人精品桃花网| 黄色成人影院| 欧美一区二区精美| 深夜国产在线播放| 亚洲国产日韩欧美在线图片| 国产盗摄精品一区二区酒店| 精品三级在线观看| 嗯啊主人调教在线播放视频| 亚洲精品美女在线| 在线一区视频观看| 中文字幕精品在线| 日韩成人在线观看视频| 欧美猛交ⅹxxx乱大交视频| 亚洲国产91视频| 欧美激情三级免费| 台湾亚洲精品一区二区tv| 欧美一级视频一区二区| av中文一区| 99久re热视频这里只有精品6| 欧美日韩三级| 亚洲精品国产系列| 国产乱子伦视频一区二区三区| 国产 欧美 日本| 久久久精品黄色| 亚洲视频第二页| 国产精品白丝在线| 在线一级观看| 制服视频三区第一页精品| 成人女同在线观看| 精品国产一区二区三区久久狼5月| 亚洲欧美一级| 欧美在线免费观看| 欧美日一区二区三区在线观看国产免| 久久久久久久久久久久久9999| 蜜桃久久精品一区二区| heyzo国产| 亚洲高清免费观看高清完整版在线观看| 牛牛热在线视频| 亚洲精品国产精品乱码不99按摩| 欧美日一区二区三区| 欧美制服第一页| 亚洲人人精品| 波多野结衣综合网| 亚洲动漫第一页| 视频在线观看入口黄最新永久免费国产 | 欧美日韩综合| 尤物国产精品| 亚洲乱码国产乱码精品精98午夜| 成人av一区| 久久综合免费视频| 亚洲第一天堂| 国产在线视频综合| 午夜亚洲福利老司机| 在线三级中文| 热久久免费国产视频| 久久精品国产精品亚洲红杏| 国产黄色一级电影| 亚洲日韩第一页| 欧美日韩精品免费观看视频完整| 缅甸午夜性猛交xxxx| 精品动漫一区二区| 欧美黑粗硬大| 免费在线一区二区| 亚洲摸摸操操av| 中文字幕乱码中文乱码51精品| 欧美一级高清免费播放| 久久99国产精品久久99| 一区二区三区高清在线视频 | 色哟哟在线观看| 中文字幕一区二区三区电影| 亚洲视频久久| 久久精品免费一区二区| 欧美日韩高清在线| 午夜欧洲一区| 精品人妻一区二区三区四区在线| 日韩一区二区影院| 99精品国产一区二区三区| 男人天堂1024| 亚洲国产精彩中文乱码av| 99精品视频在线| 欧美女同在线观看| 在线精品播放av| 日本亚洲免费观看| 国产香蕉在线| 国产精品偷伦视频免费观看国产| 91在线一区二区三区| 涩涩视频在线免费看| 美女网站在线| 97精品视频在线观看| 东方欧美亚洲色图在线| 毛片激情在线观看| 91麻豆桃色免费看| 中文一区在线播放| 久久天堂影院| 最新av网址在线观看| 日韩视频一区二区在线观看| 亚洲理论电影网| 久草影视在线| 日产精品久久久一区二区福利| 99久久国产综合精品色伊 | 日韩美女视频免费看| 国产99精品国产| 神马午夜在线视频| 亚洲韩国在线| 欧美www视频| 日韩中文字幕亚洲一区二区va在线| 牛牛澡牛牛爽一区二区| 国产精品永久免费视频| 国产精品二三区| 成人18夜夜网深夜福利网| 人人妻人人添人人爽欧美一区| 亚洲精品一区久久久久久| 国产亚洲亚洲| 在线观看wwwxxxx| 天堂精品一区二区三区| 日韩欧美在线网站| 天堂va蜜桃一区二区三区漫画版 | 亚洲天堂2016| 韩国女主播一区二区三区| xxxx一级片| 日本免费在线精品| 亚洲国产日韩a在线播放性色| 奇米狠狠一区二区三区| 中文字幕123| 成人免费视频视频在| 欧美性大战久久| 香蕉视频成人在线观看| 捆绑调教日本一区二区三区| 男人j进女人j| 久久人体大胆视频| 欧美国产精品久久| 精品国产精品| 国产香蕉在线| 亚洲精品一区二区三区av| 精品亚洲一区二区| 久久久国产午夜精品| 国产精品毛片视频| 在线黄色国产电影| 国产欧美欧洲| 亚洲风情亚aⅴ在线发布| 成人综合婷婷国产精品久久蜜臀| 欧美激情精品| 狠狠操在线视频| 久久资源亚洲| 日韩中文字幕视频在线观看| 中文字幕人成不卡一区| 欧美精品一区二区三区久久久竹菊| av在线free| 男人操女人免费软件| 国产精品美女av| 欧美一区二区免费视频| 成人午夜激情在线| 欧美1区二区| 激情成人四房播| 日本网站免费在线观看| 午夜精品在线视频| 欧美在线视频全部完| 精品一区二区三区视频| 国产精品主播在线观看| 黄色视屏网站在线免费观看| 好吊色这里只有精品| 国产成人亚洲综合91精品| 91精品婷婷国产综合久久性色| 成人avav影音| 欧美一区精品| 2019年精品视频自拍| 天海翼一区二区三区四区在线观看| 亚洲高清乱码| 国产精品入口免费视频一| 亚洲精品国产精品国自产观看浪潮| 国产精品剧情在线亚洲| 美女一区二区三区在线观看|