国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

英偉達提出全新Star Attention,10倍加速LLM推理!登頂Hugging Face論文榜

人工智能 新聞
大模型如今已具有越來越長的上下文,而與之相伴的是推理成本的上升。英偉達最新提出的Star Attention,能夠在不損失精度的同時,顯著減少推理計算量,從而助力邊緣計算。

當下的手機及AIPC中都會安裝本地大模型,然而上下文長度增加,推理時的計算成本也會顯著增長。最明顯的一個后果就是,用戶輸入問題后需要等待很久才能看到結果。

為此,已有多種優化方案提出,例如Flash Attention,而11月26日英偉達提出的Star Attention機制,可用于提升Transformer模型在處理長序列時的效率和準確性。

值得一提的是,這篇文章受到了廣泛的關注,登頂Hugging Face每日論文榜首。

圖片

論文地址:https://arxiv.org/abs/2411.17116

Star Attention如何降低推理成本

在了解Star Attention如何改進大模型推理前,讓我們先看看當前大模型的推理過程涉及的兩個步驟:

1)prompt編碼,即模型處理輸入并在緩存中存儲KV(鍵值)向量;

2)token生成,即模型關注KV緩存并自回歸生成新令牌,同時用新 的KV向量更新緩存。

在許多長上下文任務中,輸入由一個長上下文后跟一個短查詢和一個短答案組成。當大模型的上下文變得越來越長之后,回答查詢所需的信息通常局限在上下文的小部分內,意味著上下文只需關注附近的token,而查詢token需要關注所有之前上下文涉及的內容。

圖片Star Attention下的兩階段推理

系統中所有設備被分組為多個主機(host),其中一個主機被標記 為「查詢」主機。輸入序列分為兩個階段處理。

階段一:上下文編碼

輸入的上下文部分被分割成較小的塊,并分配到各個主機。除了第一個塊之外,所有塊的前面都加上一個初始塊,稱為「錨點」塊(anchor block)。每個主機處理其分配的塊,并存儲非錨點部分的KV緩存。

階段二:查詢編碼和token生成

輸入查詢被廣播到所有主機,在每個主機中,它首先訪問在第一階段計算出的本地KV緩存。然后「查詢」主機通過聚合所有主機的softmax歸一化統計數據來計算全局注意力。這個過程對于每個生成的token都會重復。

用一個不那么嚴謹的例子來概述上面的過程:想象一場烹飪比賽(上下文token),每個廚師(主機)負責準備一道菜的一部分(塊)。

為了確保味道一致,每個廚師除了準備自己的部分,還在前面加了一點「錨點」調料(錨點塊)。每個廚師準備好自己的部分后,記住自己部分的口味(KV緩存)。

階段二的查詢編碼和token生成可視為:評委(查詢token)來品嘗菜肴,并決定下一道菜的口味(生成新token)。評委先品嘗每個廚師的部分,看看哪個部分最符合他們的口味。

最后,評委匯總所有廚師的意見,確定下一道菜的口味,并告訴廚師們。

Star Attention的性能提升

Star Attention帶來的性能提升,主要體現在以下兩個方面:

1)高達11倍的加速

在多個長上下文基準測試上,Star Attention所加持的8B Llama3的推理速度顯著提升,隨著序列長度增加,加速比從1.1x提升到2.7x。

而在參數量更大的Llama3.1-70B上,推理的加速比提升更為顯著。

圖片

與此同時,對比采用全局注意力的基準,Star Attention相對準確率的降低只在0~3%范圍內。

圖片

隨著上下文長度的增加,star attention推理的準確性相比全局注意力幾乎相同,但推理計算成本顯著下降

在更長的上下文尺度(128K)中,上下文編碼過程中不同塊的大小,也會影響推理的準確性和速度。塊尺寸越大,Star Attention 的準確性越高。

圖片

在 RULER 基準測試上,不同塊大小對Star Attention準確性的影響,塊大小范圍從4K到32K,適用于序列長度為128K的Llama-3.1-8B instruct 模型

用于評估的RULER,包含了13個任務,分為4個領域:大海撈針 (檢索)、多跳追蹤、聚合和問答,

圖片

不同任務中,全局注意力和Star Attention的準確性差異對比

圖片

而在上下文長度更大,達到1048K時,Star Attention的推理準確性依舊保持在原基準90%,推理加速比達到了10.8×~16.9×。

而在更大的Llama3.1-70B中,Star Attention能實現更大的加速比,同時保持相似水平的準確率下降。

由于其運行機制不涉及具體模型,Star Attention可以無縫集成到大多數通過全局注意力訓練的基于Transformer的LLMs中,無需額外的模型微調。

由于減少了推理的計算成本,Star Attention顯著減少了內存需求,使得在本地設備(如手機,筆記本中)用LLM處理更長的序列成為可能。

實驗發現,將塊大小設置為總序列長度的約四分之一,可以在精度和速度之間取得最佳平衡。而用戶也可以根據需求調整塊大小,以在計算效率和精度之間進行權衡。

結論

未來的研究,會嘗試將Star Attention擴展到更長的序列(最長可達1M)和更大的模型,并希望能觀察到甚至更的加速,同時保持相似水平的準確率。同時專注于優化「錨塊」機制,并在更復雜的長上下文任務上提高性能,以增強Star Attention的可擴展性和穩健性。

總的來看,對于想要開發部署本地大模型的廠商,Star Attention是一項不容錯過的技術。使用Star Attention后,本地LLM能夠更快地回復用戶,還可在有限的內存中兼容更長的上下文序列,從而在RAG任務中閱讀更長的文本。

而對于云端大模型的提供商,Star Attention能夠在幾乎不影響用戶體現的前提下,顯著提升推理成本,實現「降本增效」,同時減少能源消費(碳足跡)。

通過在多個主機間分配上下文處理,Star Attention使上下文長度能夠隨主機數量線性擴展。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-02-29 16:35:01

StarCoder2大型語言模型人工智能

2023-10-08 09:00:00

LLMGitHub人工智能

2023-03-22 13:53:26

芯片英偉達

2025-10-21 08:54:00

微軟LLM模型

2025-07-30 08:40:00

AI編程模型

2023-09-10 12:37:38

模型英偉達

2025-03-12 09:35:45

2024-01-02 09:10:17

k開源數據

2023-05-23 14:06:53

微軟研究

2025-07-21 09:11:00

2025-06-18 13:59:11

計算英偉達視覺

2025-08-26 15:31:35

英偉達模型架構

2025-03-05 04:00:00

2022-10-27 16:03:57

2018-11-26 14:56:15

云計算UCloud云主機

2024-10-21 10:20:00

訓練模型

2023-09-01 15:22:49

人工智能數據

2025-07-24 16:34:25

AI模型測試

2022-06-01 16:47:53

AI模型開源

2023-05-30 14:17:00

模型推理
點贊
收藏

51CTO技術棧公眾號

精品一二三区视频| 国产激情一区| 91看片淫黄大片一级在线观看| 97在线视频免费看| 羞羞的视频在线看| 亚洲一区二区三区三| 免费一级淫片aaa片毛片a级| 一级毛片免费高清中文字幕久久网| 在线日韩欧美视频| 黄色片网站在线| 亚洲精品日产精品乱码不卡| 欧美交换配乱吟粗大25p| 日韩午夜av| 日本免费在线精品| 不卡一区视频| 日韩国产在线看| 9i精品一二三区| 亚洲综合男人的天堂| 成年人黄色片视频| 国产精品乡下勾搭老头1| 欧美高清视频一区二区三区在线观看| 精品视频99| 91大神福利视频在线| 国内不卡的一区二区三区中文字幕| 精品国产污网站| 日本高清在线观看wwwww色| 亚洲一区二区三区国产| 欧美成人三级在线播放| 久久无码av三级| 大陆极品少妇内射aaaaa| 国产精品一区二区视频| 中文字幕人成一区| 久久国产麻豆精品| 亚洲最大色综合成人av| 首页国产欧美日韩丝袜| 欧美日本韩国一区二区三区| 国产深夜精品| 久久久久久久久一区二区| 亚洲国产二区| 蜜桃999成人看片在线观看| 亚洲精品欧洲| 免费电影一区| 久久久久综合| 亚洲欧美日韩国产yyy| 日韩电影在线观看网站| 亚洲蜜桃av| 国产美女av一区二区三区| 永久免费网站视频在线观看| 国产一区91精品张津瑜| 国产卡一卡二在线| av亚洲精华国产精华精| 自拍日韩亚洲一区在线| 国产亚洲欧洲997久久综合 | 91免费国产视频网站| 欧美牲交a欧美牲交| 久久先锋影音av鲁色资源网| 精品日韩久久久| 亚洲国产裸拍裸体视频在线观看乱了| 超碰在线人人| 欧美视频在线不卡| 久草在线新免费首页资源站| 亚洲欧美一区二区精品久久久| 亚州一区二区三区| 欧美激情videos| 国产乱码精品一区二区三区四区| 国产精品啪视频| 亚洲国内欧美| 激情五月六月婷婷| 中文字幕在线一区二区三区| 中文字幕不卡免费视频| 91精品国产综合久久福利软件| 中文字幕 在线观看| 欧美激情视频给我| 亚洲电影影音先锋| 亚洲一区精品视频| 国产欧美精品区一区二区三区| 中文字幕网在线| 日韩精品在线网站| 国产麻豆一区二区三区| 国产精品第一第二| 国产精品婷婷| 欧美精品自拍视频| 婷婷一区二区三区| 亚洲奶水xxxx哺乳期| 久久天堂av综合合色| 99成人超碰| 国内自拍中文字幕| 精品久久久香蕉免费精品视频| free性m.freesex欧美| 91sa在线看| 欧美aⅴ一区二区三区视频| 成人观看免费完整观看| 亚洲第一久久影院| 在线观看精品| 114国产精品久久免费观看| 久久99精品国产.久久久久 | 蜜臀va亚洲va欧美va天堂 | 亚洲欧美日韩国产成人精品影院| wwwww在线观看免费视频| 一本色道久久88亚洲综合88| 精品一区二区三区在线| 中文网丁香综合网| 一区二区三区四区乱视频| 国产又色又爽又黄刺激在线视频| 久久久久久香蕉网| 国产一区二区精品| 成人毛片高清视频观看| 精品久久99ma| 手机在线电影一区| 精品中文字幕av| 91精品国产欧美日韩| 欧美日韩一区二区三区在线电影| 亚洲精品在线免费| 亚洲午夜av在线| 久久久一本精品| http;//www.99re视频| 久久久亚洲欧洲日产国码αv| 日本www在线| 国产精品久久久久久久久免费 | 亚洲人妖av一区二区| 成人免费网站观看| 国产欧美日韩高清| av在线综合网| a视频在线观看| 91久久精品国产91久久性色| 久久久www免费人成精品| 国产原创视频在线观看| 国产精品大陆在线观看| 91免费看视频| 欧美18av| 丝袜美腿玉足3d专区一区| 色综合天天综合网天天狠天天| 日韩国产一二三区| 亚洲va韩国va欧美va精四季| 黑人巨大精品欧美一区二区免费 | 99在线播放| 69堂成人精品视频免费| 亚洲激情第一区| 99国产精品久久一区二区三区| 欧美一级免费在线观看| 精品视频999| 91一区二区三区四区| 91av入口| 久久久免费av| 国产亚洲欧美中文| 青青在线精品| 国产a级黄色大片| 亚洲高清一区二| 亚洲一区二区三区高清| 性感av在线播放| 国产免费一区二区三区在线能观看| 中文字幕精品在线不卡| 日韩在线观看一区二区三区| 青青草原成人网| www日韩欧美| 99精品视频一区| 亚洲网站免费| 黄色a级片免费| 欧美精品videos性欧美| 亚洲国产经典视频| 欧美综合精品| 一级网站免费观看| 成人h片在线播放免费网站| 日韩欧美在线观看视频| 欧美激情性爽国产精品17p| 日本中文字幕在线视频| 日日夜夜精品网站| 日韩毛片中文字幕| proumb性欧美在线观看| 秋霞午夜一区二区三区视频| 国产精品人人爽人人爽| 日韩av成人在线| 亚洲18色成人| 亚洲婷婷在线| 国产网红女主播精品视频| 热这里只有精品| 精品国产一区二区三区在线观看| 91麻豆文化传媒在线观看| 91国内精品白嫩初高生| 九色在线网站| 久久精品国产精品国产精品污 | 欧美另类videos死尸| 夜久久久久久| 国产激情视频在线看| 亚洲理论电影在线观看| 久久成人在线视频| 亚洲国产精品一区二区www | 成人黄动漫网站| 91超碰在线电影| 91精品国产美女浴室洗澡无遮挡| 激情综合一区二区三区| 精品精品视频| 天天影视色香欲综合| 国产精品一区二区a| 日韩成人中文字幕| 国产喂奶挤奶一区二区三区| 外国成人激情视频| 51精品视频| 国产毛片毛片| 亚洲高清乱码|