国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

微軟新出熱乎論文:Transformer擴展到10億token

人工智能 新聞
已經擴展到了10億token,未來能否將整個互聯網作為一個序列處理?

當大家不斷升級迭代自家大模型的時候,LLM(大語言模型)對上下文窗口的處理能力,也成為一個重要評估指標。

比如明星大模型 GPT-4 支持 32k token,相當于 50 頁的文字;OpenAI 前成員創立的 Anthropic 更是將 Claude 處理 token 能力提升到 100k,約 75000 個單詞,大概相當于一鍵總結《哈利波特》第一部。

在微軟最新的一項研究中,他們這次直接將 Transformer 擴展到 10 億 token。這為建模非常長的序列開辟了新的可能性,例如將整個語料庫甚至整個互聯網視為一個序列。

作為比較,普通人可以在 5 小時左右的時間里閱讀 100,000 個 token,并可能需要更長的時間來消化、記憶和分析這些信息。Claude 可以在不到 1 分鐘的時間里完成這些。要是換算成微軟的這項研究,將會是一個驚人的數字。

圖片圖片

  • 論文地址:https://arxiv.org/pdf/2307.02486.pdf
  • 項目地址:https://github.com/microsoft/unilm/tree/master

具體而言,該研究提出了 LONGNET,這是一種 Transformer 變體,可以將序列長度擴展到超過 10 億個 token,而不會犧牲對較短序列的性能。文中還提出了 dilated attention,它能指數級擴展模型感知范圍。

LONGNET 具有以下優勢:

1)它具有線性計算復雜性;

2)它可以作為較長序列的分布式訓練器;

3)dilated attention 可以無縫替代標準注意力,并可以與現有基于 Transformer 的優化方法無縫集成。

實驗結果表明,LONGNET 在長序列建模和一般語言任務上都表現出很強的性能。

在研究動機方面,論文表示,最近幾年,擴展神經網絡已經成為一種趨勢,許多性能良好的網絡被研究出來。在這當中,序列長度作為神經網絡的一部分,理想情況下,其長度應該是無限的。但現實卻往往相反,因而打破序列長度的限制將會帶來顯著的優勢:

  • 首先,它為模型提供了大容量的記憶和感受野,使其能夠與人類和世界進行有效的交互。
  • 其次,更長的上下文包含了更復雜的因果關系和推理路徑,模型可以在訓練數據中加以利用。相反,較短的依賴關系則會引入更多虛假的相關性,不利于模型的泛化性。
  • 第三,更長的序列長度可以幫助模型探索更長的上下文,并且極長的上下文也可幫助模型緩解災難性遺忘問題。

然而,擴展序列長度面臨的主要挑戰是在計算復雜性和模型表達能力之間找到合適的平衡。

例如 RNN 風格的模型主要用于增加序列長度。然而,其序列特性限制了訓練過程中的并行化,而并行化在長序列建模中是至關重要的。

最近,狀態空間模型對序列建模非常有吸引力,它可以在訓練過程中作為 CNN 運行,并在測試時轉換為高效的 RNN。然而這類模型在常規長度上的表現不如 Transformer。

另一種擴展序列長度的方法是降低 Transformer 的復雜性,即自注意力的二次復雜性?,F階段,一些高效的基于 Transformer 的變體被提出,包括低秩注意力、基于核的方法、下采樣方法、基于檢索的方法。然而,這些方法尚未將 Transformer 擴展到 10 億 token 的規模(參見圖 1)。

圖片圖片

下表為不同計算方法的計算復雜度比較。N 為序列長度,d 為隱藏維數。

圖片圖片

方法

該研究的解決方案 LONGNET 成功地將序列長度擴展到 10 億個 token。具體來說,該研究提出一種名為 dilated attention 的新組件,并用 dilated attention 取代了 Vanilla Transformer 的注意力機制。通用的設計原則是注意力的分配隨著 token 和 token 之間距離的增加而呈指數級下降。該研究表明這種設計方法獲得了線性計算復雜度和 token 之間的對數依賴性。這就解決了注意力資源有限和可訪問每個 token 之間的矛盾。

圖片圖片

在實現過程中,LONGNET 可以轉化成一個密集 Transformer,以無縫地支持針對 Transformer 的現有優化方法(例如內核融合(kernel fusion)、量化和分布式訓練)。利用線性復雜度的優勢,LONGNET 可以跨節點并行訓練,用分布式算法打破計算和內存的約束。

最終,該研究有效地將序列長度擴大到 1B 個 token,而且運行時(runtime)幾乎是恒定的,如下圖所示。相比之下,Vanilla Transformer 的運行時則會受到二次復雜度的影響。

圖片

該研究進一步引入了多頭 dilated attention 機制。如下圖 3 所示,該研究通過對查詢 - 鍵 - 值對的不同部分進行稀疏化,在不同的頭之間進行不同的計算。

圖片圖片

分布式訓練

雖然 dilated attention 的計算復雜度已經大幅降低到圖片,但由于計算和內存的限制,在單個 GPU 設備上將序列長度擴展到百萬級別是不可行的。有一些用于大規模模型訓練的分布式訓練算法,如模型并行 [SPP+19]、序列并行 [LXLY21, KCL+22] 和 pipeline 并行 [HCB+19],然而這些方法對于 LONGNET 來說是不夠的,特別是當序列維度非常大時。

該研究利用 LONGNET 的線性計算復雜度來進行序列維度的分布式訓練。下圖 4 展示了在兩個 GPU 上的分布式算法,還可以進一步擴展到任意數量的設備。

圖片

實驗

該研究將 LONGNET 與 vanilla Transformer 和稀疏 Transformer 進行了比較。架構之間的差異是注意力層,而其他層保持不變。研究人員將這些模型的序列長度從 2K 擴展到 32K,與此同時減小 batch 大小,以保證每個 batch 的 token 數量不變。

表 2 總結了這些模型在 Stack 數據集上的結果。研究使用復雜度作為評估指標。這些模型使用不同的序列長度進行測試,范圍從 2k 到 32k 不等。當輸入長度超過模型支持的最大長度時,研究實現了分塊因果注意力(blockwise causal attention,BCA)[SDP+22],這是一種最先進的用于語言模型推理的外推方法。

此外,研究刪除了絕對位置編碼。首先,結果表明,在訓練過程中增加序列長度一般會得到更好的語言模型。其次,在長度遠大于模型支持的情況下,推理中的序列長度外推法并不適用。最后,LONGNET 一直優于基線模型,證明了其在語言建模中的有效性。

圖片

序列長度的擴展曲線

圖 6 繪制了 vanilla transformer 和 LONGNET 的序列長度擴展曲線。該研究通過計算矩陣乘法的總 flops 來估計計算量。結果表明,vanilla transformer 和 LONGNET 都能從訓練中獲得更大的上下文長度。然而,LONGNET 可以更有效地擴展上下文長度,以較小的計算量實現較低的測試損失。這證明了較長的訓練輸入比外推法更具有優勢。實驗表明,LONGNET 是一種更有效的擴展語言模型中上下文長度的方法。這是因為 LONGNET 可以更有效地學習較長的依賴關系。

圖片

擴展模型規模

大型語言模型的一個重要屬性是:損失隨著計算量的增加呈冪律擴展。為了驗證 LONGNET 是否仍然遵循類似的擴展規律,該研究用不同的模型規模(從 1.25 億到 27 億個參數) 訓練了一系列模型。27 億的模型是用 300B 的 token 訓練的,而其余的模型則用到了大約 400B 的 token。圖 7 (a) 繪制了 LONGNET 關于計算的擴展曲線。該研究在相同的測試集上計算了復雜度。這證明了 LONGNET 仍然可以遵循冪律。這也就意味著 dense Transformer 不是擴展語言模型的先決條件。此外,可擴展性和效率都是由 LONGNET 獲得的。

圖片

長上下文 prompt

Prompt 是引導語言模型并為其提供額外信息的重要方法。該研究通過實驗來驗證 LONGNET 是否能從較長的上下文提示窗口中獲益。

該研究保留了一段前綴(prefixes)作為 prompt,并測試其后綴(suffixes)的困惑度。并且,研究過程中,逐漸將 prompt 從 2K 擴展到 32K。為了進行公平的比較,保持后綴的長度不變,而將前綴的長度增加到模型的最大長度。圖 7 (b) 報告了測試集上的結果。它表明,隨著上下文窗口的增加,LONGNET 的測試損失逐漸減少。這證明了 LONGNET 在充分利用長語境來改進語言模型方面的優越性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-09 15:21:05

AI模型LongNet

2021-01-01 09:46:43

微軟Windows 10Windows

2023-05-24 09:36:43

模型架構

2023-03-08 14:14:51

微軟ChatGPT

2022-03-23 16:28:18

微軟NVIDIAGPU

2015-08-13 13:44:21

優化多核

2024-07-30 11:20:00

圖像視覺

2024-06-13 11:44:43

2024-05-24 15:53:20

視覺圖像

2023-11-16 16:33:43

谷歌人工智能

2020-06-05 14:30:03

CephCPU 線程

2013-02-21 09:41:49

CitusData數據庫Postgres

2022-03-03 10:06:41

Transforme模型機器學習

2020-06-16 11:12:26

醫療物聯網IOT

2021-10-25 15:50:42

區塊鏈金融科技

2020-11-17 19:16:23

Windows 10微軟Edge

2012-10-31 09:32:41

思科思杰ADC

2024-05-20 08:35:00

模型定理

2009-11-12 15:30:44

2009-02-26 10:50:04

NetApp虛擬化VMware ESX
點贊
收藏

51CTO技術棧公眾號

国产精品亚洲片夜色在线| 中文字幕一区二区不卡| 国产精品青青在线观看爽香蕉| 欧美日韩爱爱| 狠狠色噜噜狠狠狠狠色吗综合| 日本免费久久| 婷婷中文字幕一区三区| 丰满的少妇愉情hd高清果冻传媒| 一区久久精品| 欧美日韩亚洲国产成人| 久久久一区二区| 色视频在线观看免费| 精品国产免费视频| 中文在线视频| 亚洲成人网在线观看| 一区二区三区四区高清视频| caoporen国产精品| 99国产精品久久久久久久久久久 | 欧美专区在线视频| 制服诱惑一区二区| 欧美精品aaaa| 欧美精品第一页| 婷婷视频一区二区三区| 国产精品一区二区三区观看 | 日韩一区二区免费看| 日本伊人色综合网| 欧美日韩亚洲一区二| av剧情在线观看| 欧美一级视频免费在线观看| 一本一道久久a久久| 国产麻豆一区二区三区在线观看| 久久理论电影| 欧美 日韩 国产 在线观看| 亚洲黄色av一区| 色www免费视频| 国产午夜亚洲精品不卡| 粉嫩av一区| 国模视频一区二区| 久久99九九99精品| 性做爰过程免费播放| 怡红院av一区二区三区| 日韩成人亚洲| 精品欧美一区二区精品久久| 中文字幕中文字幕在线一区 | 日韩一级完整毛片| 天堂资源在线亚洲| 91国内免费在线视频| 免费亚洲视频| 天堂在线视频中文网| 夜夜嗨av色综合久久久综合网| 欧美激情亚洲| 久久成人资源| 亚洲欧美日韩一区二区| www.日韩| 欧美lavv| 色国产精品一区在线观看| 啪啪激情综合网| 日本在线xxx| 欧美一级二级三级蜜桃| 日韩写真欧美这视频| 99免费精品视频| 1区2区在线| 国产精品日韩一区| 日本一区二区三级电影在线观看| 免费看电影在线| 国产一区二区三区在线观看网站 | 欧美亚洲一区在线| 高清不卡在线观看av| 视频在线观看入口黄最新永久免费国产| 88在线观看91蜜桃国自产| 欧美色图国产精品| 天天色综合社区| 欧美日韩精品在线播放| 日韩av资源网| 亚洲狼人综合干| 亚洲影视在线播放| 无遮挡的视频在线观看 | 免费精品99久久国产综合精品| 川上优的av在线一区二区| 国产精自产拍久久久久久蜜| 亚洲欧美日韩中文播放| 国产精品一区二区三区美女| 黄色一级二级三级| 精品久久久999| 国产精品片aa在线观看| 成人免费观看www在线| 久久深夜福利免费观看| 波多野结衣一区二区三区| 偷拍中文亚洲欧美动漫| 青青在线视频免费观看| 中文字幕一区二区精品| 色爱综合网欧美| 伊人天天久久大香线蕉av色| av亚洲产国偷v产偷v自拍| 黄色成人免费网| 国内少妇毛片视频| 亚洲综合在线第一页| 青青一区二区| 2018av男人天堂| 日韩av色综合| 日韩精品视频在线观看视频| 伊人久久综合| 亚洲国产一区二区a毛片| www.成人影院| 在线精品国产成人综合| 不卡视频一二三四| 亚洲精品aⅴ| 成人3d漫画免费无遮挡软件| 一本高清dvd不卡在线观看| 久久久人成影片免费观看| jizzjizz在线观看| 国产精品视频一区二区三区不卡| 在线看视频你懂得| 日韩中文字幕在线免费观看| 91日韩在线专区| 日韩理论电影中文字幕| 丝袜视频国产在线播放| 亚洲色图15p| 91美女片黄在线| 婷婷精品在线观看| 一区二区三区性视频| 久久综合久久综合这里只有精品| 亚洲国产欧美一区| 99久久99久久精品国产片桃花 | 欧美亚洲一区| 亚洲电影有码| 亚洲另类第一页| 国产精品午夜一区二区欲梦| 欧美日韩一区三区| 国内精品国产成人国产三级粉色 | 亚洲jizzjizz妇女| 99se婷婷在线视频观看| 日韩一区二区三区视频| 91亚洲国产成人精品一区二三| av永久不卡| 在线不卡日本v二区707| www黄色av| 国产精品美女xx| zzijzzij亚洲日本成熟少妇| 亚洲成在人线在线播放| 精品一区二区三区免费观看| 天堂99x99es久久精品免费| 国产原厂视频在线观看| 不卡av免费在线| 麻豆亚洲一区| 欧美激情综合亚洲一二区| 国产一区二区电影| 午夜精品福利影院| av在线免费网址| 久草香蕉在线| 亚欧精品在线| 日韩av片永久免费网站| 亚洲国产精品久久久久| 亚洲尤物在线视频观看| 国产一区二区三区四区五区美女| 少妇精品久久久一区二区三区 | 污视频网站在线观看| 青青草视频国产| 成人久久久久久| 中文字幕亚洲第一| 欧美午夜精品久久久久久超碰 | 国产精品视频观看| 美女久久网站| 韩国中文免费在线视频| 蜜桃网站在线观看| 亚洲精品国产精品自产a区红杏吧| 国产欧美日产一区| 蜜臀精品一区二区三区在线观看| 激情五月综合| 久久91视频| 成a人片在线观看| 激情婷婷丁香| 精品久久一二三| 品久久久久久久久久96高清| 欧洲成人免费视频| 日韩综合中文字幕| 日韩一级片在线播放| 亚洲成人自拍一区| 久久精品视频在线免费观看 | 免费观看美女裸体网站| 黄色一区三区| 国产精品国产亚洲伊人久久| 久久精品成人一区二区三区| 日韩欧美一卡二卡| 精品福利一区二区| 国产蜜臀av在线一区二区三区| 久久激情五月激情| 一本色道久久综合一区| 精品久久中文| 久久夜色电影| 国产日韩在线观看视频| 国产夫妻在线| 久久久久久久9| 国产欧美一区二区精品婷婷 | 国产99久久久欧美黑人| 精品成人一区二区| 欧美特级www| 亚洲欧美日韩在线播放| 久久久高清一区二区三区| 国产成人一区二区精品非洲|