国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

斯坦福博士獨作!大模型訓練速度再翻倍,還官宣加入明星創業公司當首席科學家

人工智能 新聞
一代方法去年6月發布,無需任何近似即可加速注意力并減少內存占用。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

現有大語言模型的訓練和推理速度,還能再快一點——

快多少?2-4倍。

各種大模型都在用的FlashAttention今天正式發布第2代并開源,所有Transformer架構的模型都可使用它來加速。

圖片圖片

一代方法去年6月發布,無需任何近似即可加速注意力并減少內存占用。

現在,FlashAttention-2將它再度升級,使其核心注意力操作的速度再提高2倍,端到端訓練Transformer時的速度再提高1.3倍,并可在英偉達A100上訓練時實現72%的模型FLOP利用率(一般模型都在50%上下)

圖片圖片

鑒于現在煉一個大語言模型的成本高達數千萬美元,FlashAttention-2這一系列操作直接就能幫我們省掉數百萬(美元)

網友驚得臟話都出來了(狗頭)

圖片圖片

目前,這個項目已在GitHub上收獲4.4k標星。

與此同時,我們注意到,它的一作已經完成斯坦福博士學位并加盟大模型創業公司Together AI。

具體實現

據介紹,一代FlashAttention是一種對注意力計算重新排序的算法,它利用經典方法如tiling(切片)來顯著加快計算速度,并將序列長度的內存使用量從二次方減為線性。

其中tiling方法指的是將輸入塊從HBM(GPU內存)加載到SRAM(快速緩存),然后對該塊進行attention操作,再更新HBM中的輸出。

對HBM的反復讀寫就成了最大的性能瓶頸。

圖片圖片

正是這種通過避免將大型中間注意力矩陣寫入HBM的方法,FlashAttention減少了內存讀/寫量,從而帶來2-4倍的時鐘時間加速。

然而,這個算法仍然存在一些低效率的問題,導致它仍然不如優化矩陣乘法 (GEMM) 運算來得快,最終僅達到理論最大FLOPs/s的25-40%(例如在A100上最多124 TFLOPs/s)

究其原因,還是因為不同線程塊之間的工作和GPU上的wrap劃分不理想。

在此,FlashAttention-2進行了三方面的改進

首先,在基礎算法上,減少非matmul(矩陣乘法) FLOP的數量。

一層原因是由于現代GPU具有專門的計算單元,matmul速度更快。例如A100上FP16/BF16 matmul的最大理論吞吐量為312TFLOPs/s,但非matmul FP32的理論吞吐量僅為19.5 TFLOPs/s

另一層原因是價格考量,畢竟每個非matmul FLOP比matmul FLOP貴16倍。同時在matmul FLOP上花費盡可能多的時間也能保持高吞吐量。

為此,作者重寫了FlashAttention中的softmax trick,無需更改輸出即可減少重新縮放操作的數量,以及邊界檢查和因果屏蔽操作(causal masking operation)

其次,當batch size較小時并行化以獲得更高的占用率。

FlashAttention一代在batch size和注意力頭數量上進行并行化。

由于它使用1個線程塊來處理1個注意力頭,總共就有(batch_size*注意力頭數)個線程塊,每個線程塊被安排在流式多處理器 (SM) 上運行。

當在像A100這樣有108個SM處理器上操作時,如果線程塊很多比如>=80,這樣的調度安排就很有效。

而在長序列的情況下,也就是batch size和頭數量很少(小)時,就需要在序列長度維度上另外進行并行化來更好地利用GPU上的多處理器了。

這個改進也是FlashAttention-2速度顯著提升的一大原因。

最后,改進工作分區。

在線程塊內,我們必須確定如何在不同的warp之間劃分工作。通常是每個塊使用4或8個warp,現在,作者改進了這一方式,來減少不同warp之間的同步和通信量,從而減少共享內存讀寫操作。

如下圖左所示,FlashAttention一代的做法是將K和V分割到4個warp上,同時保持Q可被所有warp訪問。這樣的后果是所有warp都需要將其中間結果寫入共享內存,然后進行同步再將中間結果相加,非常低效,減慢了FlashAttention中的前向傳播速度。

圖片圖片

而在FlashAttention-2中,作者將Q分為四個warp,同時保證所有warp都可訪問K和V。

每個warp執行矩陣乘法獲得Q K^T的切片后,只需與V的共享切片相乘即可獲得相應的輸出。也就是說warp之間不需要通信,那么共享內存讀寫操作就少了很多,速度也就提上來了。

除了這三個大改進,FlashAttention-2還有兩個小改動:
一是注意力頭數從128增至256,這意味著GPT-J、CodeGen和CodeGen2以及StableDiffusion 1.x等模型都可以使用 FlashAttention-2來進行加速和內存節省了;

二是支持多查詢注意力(MQA)和分組查詢注意力(GQA)

實驗評估

作者在A100 80GB SXM4 GPU上對不同配置(有無causal mask,頭數量64或128)下的運行時間進行了測量。

結果發現:

FlashAttention-2比FlashAttention(包括xformers庫和Triton中的其他實現)快大約2倍,這也意味我們可以用與之前訓練8k上下文模型相同的價格來訓練具有16k上下文的模型了(也就是模型上下文長度加倍)

而與PyTorch中的標準注意力實現相比,FlashAttention-2的速度最高可達9倍。

圖片圖片

此外,有了FlashAttention-2,我們只需在H100 GPU上運行相同的實現(不使用特殊指令利用TMA和第四代Tensor Core等新硬件功能),訓練速度就可以跑到高達335TFLOPs/s的成績。

圖片圖片

以及當用于端到端訓練GPT式模型時,FlashAttention-2還能在A100上實現高達225TFLOPs/s的速度(模型FLOPs利用率達72%)。這與已經優化程序足夠高的FlashAttention相比,速度再提高了1.3倍。

圖片圖片

一作加入大模型創業公司

FlashAttention-2論文僅顯示一位作者:Tri Dao。他也是FlashAttention一代的兩位共同作者之一。

圖片圖片

據了解,Tri Dao的研究方向為機器學習和系統的交叉領域,去年拿下ICML 2022杰出論文亞軍獎。

最近他剛剛獲得斯坦福大學計算機科學博士學位,即將上升普林斯頓大學助理教授,并已宣布加盟生成式AI創業公司Together AI(該司主要目標構建一個用于運行、訓練和微調開源模型的云平臺)擔任首席科學家
圖片

One More Thing

最后,有網友發現,除了FlashAttention-2,最近還有一系列類似成果,包括DeepSpeed的ZeRO++、馬薩諸塞大學de ReLoRA。

它們都是用于加速大型模型預訓練和微調,這些研究成果讓他覺得:

未來在低vram低帶寬的消費顯卡上訓練大模型,似乎已不是在做夢了。

圖片圖片

大家認為呢?

論文地址:https://tridao.me/publications/flash2/flash2.pdf
博文地址:https://princeton-nlp.github.io/flash-atttention-2/
GitHub主頁:https://github.com/Dao-AILab/flash-attention

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-18 08:58:00

2024-09-11 15:00:00

2025-04-27 08:40:00

OpenAI谷歌AI

2023-10-12 14:18:06

2025-09-01 02:00:00

AI署名論文推理

2024-05-15 09:28:01

2023-03-31 13:35:39

AI人才

2018-06-28 09:07:58

2025-01-24 09:30:00

2021-05-31 08:13:39

亞馬遜職場面試

2013-03-08 09:57:59

2021-10-25 11:08:51

AI 數據人工智能

2025-07-29 09:06:00

2012-12-06 15:36:55

CIO

2022-03-23 18:26:17

AI裁判編譯器端側AI

2025-11-05 01:10:00

2017-08-04 15:53:10

大數據真偽數據科學家

2021-10-19 10:50:16

數字化

2024-09-05 12:57:08

2021-08-24 14:49:00

計算開發 技術
點贊
收藏

51CTO技術棧公眾號

懂色av一区二区三区免费观看| 国内精品久久久久久久久电影网| www.日韩av.com| www.99热.com| 高潮按摩久久久久久av免费| av在线不卡免费看| 欧美裸体xxxx极品少妇| 久久久久久久久久久久久久久久久久久| 国产尤物精品| 欧美中文字幕久久| 91精品一区二区| 国外av网站| 日日夜夜精品免费视频| 午夜免费久久久久| 最近中文字幕免费mv2018在线| 久久一区二区三区国产精品| 成人在线激情视频| 欧美aaaaaaaa牛牛影院| 中文字幕精品网| 奇米777日韩| 精品国内片67194| 在线国产91| 在线观看亚洲成人| 日韩肉感妇bbwbbwbbw| 狠狠狠色丁香婷婷综合久久五月| 日本不卡久久| 韩国av一区二区三区| 男人日女人下面视频| 中文字幕精品—区二区四季| 99re99热| 丰满岳乱妇一区二区三区| 久久视频免费在线| 国产精品一区在线| 久久天天东北熟女毛茸茸| 免费成人美女在线观看.| 神马影院一区二区| 激情综合中文娱乐网| 国产区二精品视| 精品在线播放午夜| 桃乃木香奈av在线| 欧美成人三级电影在线| 在线欧美成人| 日韩欧美一区二区免费| 成人综合网站| 国产精品99久久久久久www| 激情综合激情| 亚洲国产另类久久久精品极度| 亚洲在线电影| 久久99久久亚洲国产| 四虎影院观看视频在线观看 | 成人超碰在线| 欧美精品99久久久**| 欧美性xxx| 国产成人a亚洲精品| 一区二区亚洲精品| 欧美做受777cos| 久久精品欧美一区二区三区不卡| 国产婷婷视频在线| 国产欧美精品久久久| 日韩三级免费| 国产麻豆乱码精品一区二区三区| 国产一区二区三区四区三区四| 国产精品初高中精品久久| 天天久久夜夜| 大桥未久一区二区| 黄色精品在线看| 免费在线观看av片| 欧美色视频在线观看| 欧美二区在线| 亚洲成a人v欧美综合天堂| 国产香蕉精品| 男女曰b免费视频| 久久久免费高清电视剧观看| 最新国产精品| 成人亚洲一区二区三区| 国产91精品精华液一区二区三区 | 99久久精品国产亚洲精品| 国产欧美日韩小视频| 欧美v日韩v国产v| 婷婷久久综合| 成人77777| 中文字幕日韩在线观看| 国内精品伊人久久久久av一坑| 日本最黄一级片免费在线| 国产精品99免视看9| 欧洲国内综合视频| 久久99精品视频| 欧美丝袜激情| 91九色国产在线播放| 五月天av在线播放| 国产精品美女www| 欧美日韩在线播放三区| 懂色av中文字幕一区二区三区| 51精品国产| a级影片在线观看| 东京热加勒比无码少妇| 4444kk亚洲人成电影在线| 日韩精品一区二区三区视频播放 | 最新国产乱人伦偷精品免费网站| 日本天堂影院在线视频| 91精品视频观看| 日本道色综合久久| 一本久道久久久| 26uuu亚洲电影| a√天堂在线观看| 久久久伊人日本| 日韩欧美一区中文| 久久精品日产第一区二区三区高清版| 国产一区丝袜| 黄网页免费在线观看| 亚洲午夜精品一区二区| 亚洲欧美制服综合另类| bt欧美亚洲午夜电影天堂| 国产福利一区二区三区在线播放| 欧美成人高潮一二区在线看| 日韩视频永久免费观看| 久久综合另类图片小说| 久久久一本精品99久久精品66| 97人人爽人人喊人人模波多| 欧美性猛交xxxx黑人| 麻豆91在线观看| 久久伊人影院| 水莓100在线视频| 视频一区视频二区视频三区高| 久久久成人精品视频| 亚洲国产精品精华液ab| 欧美一区成人| www.久久久久爱免| 中文字幕中文字幕在线中文字幕三区 | 欧美a一区二区| 99热国内精品| 精品久久中文| 亚洲电影av| 免费一级欧美在线大片| 美女av电影| 欧美成年人视频网站| 欧美不卡在线视频| 欧美日韩一区二区在线| 欧美性少妇18aaaa视频| 91精品国产乱| 一道本无吗dⅴd在线播放一区| 欧美成人久久久| 日本欧美精品在线| 国产精品日韩一区二区| 久久视频免费在线| 成人eeuss影院在线观看| 在线播放av网站| 日韩精品一区在线视频| 亚洲一区二区福利| 免费亚洲电影在线| yw.尤物在线精品视频| 国产婷婷视频在线| 亚洲精品高清国产一线久久| 色av成人天堂桃色av| 欧美成人日本| yw在线观看| 成人资源视频网站免费| 97se亚洲国产综合自在线观| av伦理在线| 欧洲美女和动交zoz0z| 中文国产亚洲喷潮| 欧美精品 国产精品| 日本高清不卡aⅴ免费网站| 精品伊人久久97| 欧美丰满高潮xxxx喷水动漫| 日韩av网站在线观看| 精品亚洲欧美一区| 九九视频精品免费| 99精品欧美一区二区蜜桃免费| 国产亚洲制服色| 久久久精品黄色| 中文字幕乱码亚洲精品一区| 亚洲精品videosex极品| 一本久久综合亚洲鲁鲁五月天 | 国产成人亚洲精品| 国产欧美精品在线| 一区二区三区在线免费播放| 秋霞午夜av一区二区三区| 欧美中文字幕精在线不卡| h精品动漫在线观看| 日韩av电影免费在线| av高清在线免费观看| 国产精品区在线| julia京香一区二区三区| 黄色毛片视频| 二区在线观看| 奇米精品一区二区三区| 视频在线91| 操你啦视频在线| 国产精品毛片久久久久久久久久99999999| 欧美xx视频| 久久国产精品美女| 在线看片不卡| 成人一区二区视频| 欧美日韩在线视频一区二区| 欧美一区二区三区色| 日韩亚洲第一页| 国产精品久久7| jizz欧美激情18| 中文另类视频|