国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

1000000000!微軟改進(jìn)Transformer一次能記住這么多token了

人工智能
目前最強(qiáng)的GPT-4也才最大支持一次處理32k token,相當(dāng)于50頁文字。而能夠只用1分鐘看完一本數(shù)萬字小說的Claude,其token數(shù)也不過“才”100k(10萬)。

微軟亞研院最新研究,有點(diǎn)震撼:

他們開發(fā)了一個(gè)Transformer變體,居然將其token拓展到了10億

圖片圖片

什么概念?

目前最強(qiáng)的GPT-4也才最大支持一次處理32k token,相當(dāng)于50頁文字。

而能夠只用1分鐘看完一本數(shù)萬字小說的Claude,其token數(shù)也不過“才”100k(10萬)

一次性擴(kuò)展到10億,并且這個(gè)數(shù)字理論上其實(shí)還是無限的,這不就意味著:

不久的將來,整個(gè)語料庫甚至互聯(lián)網(wǎng)都能視為一個(gè)序列?

圖片圖片

若真如此,簡直不敢想象。

如何做到?

大預(yù)言模型時(shí)代,擴(kuò)展序列長度已成為一大關(guān)鍵需求。

然而,現(xiàn)有的方法要么難以解決計(jì)算復(fù)雜性,要么搞不定模型表達(dá)力,導(dǎo)致長度很受限。

在此,作者提出一個(gè)Transformer變體:LongNet,它應(yīng)用了一種叫做“膨脹注意力(dilated attention)”的機(jī)制,可以隨著距離的增長,讓注意力場(模型感知范圍)呈指數(shù)級擴(kuò)展。

具體而言,dilated attention替代了普通Transformer中的注意力機(jī)制的,其一般的設(shè)計(jì)原則是:

讓注意力的分配隨著token之間距離的增長,呈指數(shù)級下降。

如下圖構(gòu)建塊所示,dilated attention由一系列用于建模短期和長期依賴關(guān)系的注意力pattern組成。pattern的數(shù)量可以根據(jù)序列長度進(jìn)行擴(kuò)展。

圖片圖片

實(shí)驗(yàn)證明,dilated attention能夠產(chǎn)生線性計(jì)算復(fù)雜度和token之間的對數(shù)依賴性,從而解決了注意力資源有限,但每一個(gè)token都可訪問的矛盾。

除此之外,作者還引入了多頭dilated attention。如下圖所示,不同頭之間的注意力pattern會因位置的連續(xù)變化而不同。

圖片圖片

在最終實(shí)現(xiàn)中,LongNet可轉(zhuǎn)換為密集的Transformer,從而無縫集成Transformer現(xiàn)有的優(yōu)化方法(比如內(nèi)核融合、量化和分布式訓(xùn)練)

而利用線性復(fù)雜度,LongNet還可以跨節(jié)點(diǎn)并行訓(xùn)練,利用分布式算法打破計(jì)算和內(nèi)存的限制。

如下圖所示,LongNet通過劃分序列維度在兩個(gè)GPU上進(jìn)行并行化訓(xùn)練。隨著設(shè)備數(shù)量的增長,計(jì)算和通信成本幾乎仍然是不變的。

圖片圖片

因此,這使得LongNet可以在幾乎恒定的運(yùn)行時(shí)間內(nèi)有效地將序列長度擴(kuò)展到10億token(同時(shí)無需犧牲較短序列的性能)

圖片圖片

相比之下,普通Transformer還在受困于二次復(fù)雜度帶來的影響。

實(shí)驗(yàn)評估

作者將LongNet與普通Transformer和稀疏Transformer進(jìn)行了比較。

三者之間的體系結(jié)構(gòu)差異只體現(xiàn)在注意力層,模型的序列長度都從2K擴(kuò)展到32K,同時(shí)減少batch size以保持每個(gè)batch的token數(shù)量不變。

對于LongNet,作者使用w={2048,4096,8192,16384,32768}的分段長度,同時(shí)擴(kuò)張比率為r={1,2,4,6,12},并實(shí)現(xiàn)了稀疏注意力的固定模式,再將稀疏比進(jìn)行調(diào)整為匹配LongNet的計(jì)算flops,從而使實(shí)驗(yàn)公平。

(由于計(jì)算限制,只能將LongNet擴(kuò)展到32K序列長度)。

下表為以上三個(gè)模型在Stack數(shù)據(jù)集上的結(jié)果,衡量指標(biāo)是困惑度,測試了每個(gè)模型不同的序列長度。

當(dāng)輸入長度超過模型支持的最大長度時(shí),作者就使用一種最先進(jìn)的語言模型推理外推方法:分塊因果注意(BCA)

此外,還去除了絕對位置編碼。

圖片圖片

結(jié)果表明:

首先,在訓(xùn)練過程中增加序列長度一般會得到效果更好的語言模型。

其次,在長度遠(yuǎn)大于模型支持的情況下,序列長度外推法(推理時(shí))并不適用。

最后,可以看到,LongNet的每一項(xiàng)數(shù)據(jù)都優(yōu)于其他兩個(gè)基線,證明了它在語言建模方面的有效性。

除此之外,作者還證明,在擴(kuò)展語言模型上下文長度時(shí),LongNet也是一種更有效的方法。

圖片圖片

網(wǎng)友:Memery is all you need

不少人看完這項(xiàng)成果總結(jié)道,說來說去,還是“memery is all you need”(手動(dòng)狗頭)

圖片圖片

圖片圖片

有點(diǎn)厲害!非常希望它是真的且可復(fù)現(xiàn)。

圖片圖片

不過,也不乏爭議。

比如有人吐槽實(shí)驗(yàn)只將LongNet擴(kuò)展到了32k長度,離10億還差的遠(yuǎn)呢。

圖片圖片

還有不少人稱,方法不算很創(chuàng)新,其實(shí)就跟稀疏注意力模式差不多。

圖片圖片

作者介紹

本論文作者7位,全部來自微軟亞研院。

兩位共同一作:

Jiayu Ding,微軟亞研院實(shí)習(xí)生,本碩畢業(yè)于北京郵電大學(xué)計(jì)算機(jī)科學(xué)專業(yè);

馬樹銘,微軟亞研院自然語言計(jì)算組研究員,2019年加入,本碩畢業(yè)于北京大學(xué)。

通訊作者為Furu Wei,微軟亞研院自然語言計(jì)算組全球研究合伙人,博士畢業(yè)于武漢大學(xué),曾任IBM中國研究院研究員、香港理工大學(xué)電子計(jì)算系研究助理。

論文地址:https://arxiv.org/abs/2307.02486

參考鏈接:
[1]https://twitter.com/arankomatsuzaki/status/1676765133362675712
[2]https://twitter.com/AlphaSignalAI/status/1677009901334192143?s=20
[3]https://www.reddit.com/r/LocalLLaMA/comments/14rym30/longnet_scaling_transformers_to_1000000000_tokens/


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2021-06-14 07:23:42

Windows10操作系統(tǒng)微軟

2021-08-06 16:57:39

存儲Redis數(shù)據(jù)類型

2017-08-11 14:21:33

軟件開發(fā)前端框架

2023-07-17 08:21:52

漏洞版本項(xiàng)目

2024-04-02 08:41:10

ArrayListSubList場景

2021-08-09 11:32:30

左葉子節(jié)點(diǎn)二叉樹

2020-12-31 05:49:44

FlinkSQL函數(shù)

2020-11-20 10:22:34

代碼規(guī)范設(shè)計(jì)

2019-07-16 13:50:49

Windows 功能系統(tǒng)

2025-06-04 13:56:51

模型AI數(shù)據(jù)

2018-06-26 15:00:24

Docker安全風(fēng)險(xiǎn)

2024-07-12 09:35:38

前端工具檢驗(yàn)

2014-05-19 10:16:56

WinJS開源TypeScript

2021-06-05 07:33:09

ID分布式架構(gòu)

2023-11-13 08:49:54

2024-02-20 08:09:51

Java 8DateUtilsDate工具類

2021-03-24 08:44:11

代碼內(nèi)存消耗語言

2018-03-05 10:40:21

安卓APPGoogle

2022-01-12 20:04:09

網(wǎng)絡(luò)故障斷網(wǎng)事件網(wǎng)絡(luò)安全

2021-06-09 10:10:20

代碼內(nèi)存編程語言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲美女视频网| 国产精品免费电影| 国产精品秘入口| 国产精品美女久久久久aⅴ| 欧美一区二区三区四区五区六区 | 欧美日韩国产精品专区| 中文字幕网av| 久久先锋影音av鲁色资源 | 乱人伦精品视频在线观看| 国产精品入口免费视频一| 女同另类激情重口| 久久久噜噜噜久久中文字免| 亚洲精品乱码日韩| www.欧美三级电影.com| 成人国产一区| 欧美成人精品xxx| 色成人综合网| 日韩少妇与小伙激情| 国产精品蜜月aⅴ在线| 亚洲品质视频自拍网| 久久电影tv| 亚洲视频国产视频| 少妇一区视频| 久久这里只有精品99| 精品国产亚洲一区二区三区| 欧美日本中文字幕| 奇米色欧美一区二区三区| 国产成人精品日本亚洲专区61| 精品一区二区三区在线 | 亚洲国产你懂的| 一级黄色在线| 日本乱人伦一区| 久做在线视频免费观看| 日韩精品一区二| av在线网页| 亚洲最新中文字幕| 香蕉成人app| 国产精品黄视频| 欧美日韩中文| 亚洲激情啪啪| 91原创在线视频| 国产女主播在线观看| 色婷婷国产精品久久包臀| 欧洲不卡av| 在线播放国产一区中文字幕剧情欧美| 精品一区二区三区中文字幕视频| 午夜精品久久久久久久99黑人| 国产成人精品三级高清久久91| 国产精品午夜一区二区欲梦| 亚洲深夜福利| 国产日韩av网站| 亚洲乱码国产乱码精品精98午夜| 国产超碰在线观看| 欧美一级片在线| 99国内精品久久久久| 成人久久久久爱| 久久99精品国产.久久久久| 亚洲 欧美 日韩系列| 精品福利在线看| 91精品论坛| 国产精品老女人视频| 欧美aaaaa成人免费观看视频| 国产精品igao| 欧美精品aⅴ在线视频| 91精品国产色综合久久不卡粉嫩| 成人免费在线视频网址| 国产99久久久国产精品潘金网站| 捆绑紧缚一区二区三区在线观看| 欧美精品丝袜久久久中文字幕| 色综合久久久| 91在线观看免费高清| www.av亚洲| chinese偷拍一区二区三区| 不卡av电影院| 久久不射中文字幕| 久久小说免费下载| 亚洲老头老太hd| 欧美精品导航| 欧美女人性生活视频| 欧美色视频日本版| 国产精品99久久久久久董美香 | 日韩在线导航| 一区二区免费在线| 色婷婷综合久久久中字幕精品久久 | 亚洲在线观看| 国内自拍视频网| 精品国产电影一区二区| 色婷婷综合久久久久久| 黄黄视频在线观看| 在线免费观看日本一区| 久久久免费毛片| 国产免费一区二区视频| 欧美精品黑人性xxxx| 精品一区亚洲| 亚洲熟妇无码一区二区三区导航| 欧美天天综合网| 久久99国产成人小视频| www黄色av| 亚洲国产91精品在线观看| 性欧美69xoxoxoxo| 国产成人黄色网址| 亚洲视频日韩精品| 久久精品盗摄| 国产区av在线| 国产精品美女www| 久久久国产精品不卡| 欧美xoxoxo| 欧美主播一区二区三区美女 久久精品人| 综合分类小说区另类春色亚洲小说欧美| 久久电影tv| 新呦u视频一区二区| 欧美日韩日本视频| 欧美~级网站不卡| 视频免费在线看| 久久久伊人日本| 久久精品夜色噜噜亚洲a∨| 亚洲电影观看| 一区二区成人国产精品| 日韩一区二区三区免费观看 | 国产精品com| 国产欧美一区二区在线观看| 欧美日韩女优| 国产精品久久久久9999爆乳| 精品va天堂亚洲国产| 亚洲欧美视频| 97caopron在线视频| 久久久久成人精品免费播放动漫| 色偷偷成人一区二区三区91 | 国产精品私拍pans大尺度在线| 中文字幕一区二区三区不卡| 中文一区二区三区四区| 欧美日本视频在线观看| 久久久精品免费视频| 91亚洲精品一区二区乱码| 亚洲欧洲一二区| 亚洲国产精品久久久久婷蜜芽| 中文字幕在线观看亚洲| 99久久精品免费看国产| 日本一区二区三区播放| 欧美黑人又粗又大又爽免费| 九色精品免费永久在线| 中文字幕在线免费不卡| 最新国产一区| 国产专区在线| 亚州欧美一区三区三区在线| 亚洲精选在线观看| 99免费精品在线观看| 白嫩白嫩国产精品| 黄动漫网站在线观看| 91传媒视频在线观看| 91麻豆精品国产| 国产大片一区二区| av男人一区| 在线视频色在线| 国产精品亚洲一区| 国产午夜精品理论片a级探花| 成人一级片网址| 亚洲精品无吗| 大乳在线免费观看| 无码人妻aⅴ一区二区三区日本| 日韩在线免费观看视频| 亚洲欧洲av在线| 欧美黄污视频| 免费看男女www网站入口在线| 青青视频在线播放| 国产在线999| 亚洲激情在线观看| 国产精品你懂的| 99热这里只有精品8| 亚洲欧洲高清| 亚洲一区二区蜜桃| 91精品国产99久久久久久红楼| 精品国产乱码久久久久久闺蜜| 2021中文字幕一区亚洲| 久久电影院7| 不卡福利视频| 日本一本视频| 波多野结衣三级在线| 国产成人在线一区二区| 精品日韩一区二区三区免费视频| 久久久噜噜噜久久人人看 | 男人添女人下部高潮视频在线观看| 国产精品入口芒果| 成人信息集中地欧美| 亚洲欧美在线播放| 亚洲一二三区在线观看| 日本中文在线一区| 亚洲人和日本人hd| 成年网站在线视频网站| 丝袜制服影音先锋| 亚洲精品无人区| 国产精品视频自在线| 国产亚洲一区精品| 91福利视频在线| 欧美激情一区不卡| 美美哒免费高清在线观看视频一区二区 | 一区二区三区四区五区视频 | 欧美午夜精品久久久| 久久精子c满五个校花| 先锋影音久久久|