国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

聊聊大模型推理系統(tǒng)之Hetis:如何讓“高低配”GPU集群跑出2.25倍吞吐?

人工智能
Hetis 的出現(xiàn),為異構(gòu)算力環(huán)境下的大模型部署提供了全新的技術(shù)范式。它標(biāo)志著 LLM 服務(wù)正從粗放式的資源堆砌,邁向精細(xì)化、動(dòng)態(tài)化的智能調(diào)度時(shí)代。這一思路與國(guó)家倡導(dǎo)的綠色計(jì)算和算力普惠政策高度契合,有助于盤(pán)活存量算力資產(chǎn),降低 AI 應(yīng)用門(mén)檻。

在大模型時(shí)代,算力需求如潮水般上漲。然而,現(xiàn)實(shí)中的生產(chǎn)集群往往并非清一色的頂級(jí)顯卡,而是由A100、3090甚至老舊的P100等不同性能和內(nèi)存配置的 GPU 混搭而成——這種異構(gòu) GPU 集群雖能降低成本,卻給大語(yǔ)言模型(LLM)服務(wù)帶來(lái)了巨大挑戰(zhàn):高配 GPU 空轉(zhuǎn)等待,低配 GPU 內(nèi)存耗盡,整體效率大打折扣。

面對(duì)這一行業(yè)痛點(diǎn),最新研究提出了一套顛覆性解決方案。來(lái)自澳門(mén)大學(xué)與中山大學(xué)的研究團(tuán)隊(duì)在 SC '25 上發(fā)表論文,推出了名為 Hetis 的新型 LLM 服務(wù)系統(tǒng)。該系統(tǒng)不僅將服務(wù)吞吐量最高提升了2.25 倍,還將推理延遲降低了1.49 倍,其背后究竟有何創(chuàng)新玄機(jī)?

核心看點(diǎn)

圖片圖片

Hetis 的核心突破在于徹底改變了傳統(tǒng) LLM 服務(wù)中“一刀切”的并行策略。它首次提出了細(xì)粒度動(dòng)態(tài)并行機(jī)制,精準(zhǔn)匹配異構(gòu)硬件資源與模型模塊特性。具體而言,Hetis 通過(guò)主工作節(jié)點(diǎn)并行化(Primary Worker Parallelism)優(yōu)化計(jì)算密集型模塊(如 MLP),僅在高性能 GPU 間進(jìn)行協(xié)作;同時(shí)引入動(dòng)態(tài)頭級(jí)注意力并行化(Dynamic Head-wise Attention Parallelism),將輕量級(jí)的Attention計(jì)算靈活分發(fā)至所有 GPU,包括低性能設(shè)備。在此基礎(chǔ)上,系統(tǒng)還設(shè)計(jì)了在線調(diào)度算法,實(shí)時(shí)平衡網(wǎng)絡(luò)、計(jì)算與內(nèi)存負(fù)載,從而實(shí)現(xiàn)了資源利用率的全局最優(yōu)化。

研究背景

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)在異構(gòu)環(huán)境下面臨兩大核心瓶頸:內(nèi)存效率低下與計(jì)算資源錯(cuò)配。以 Splitwise 為代表的階段拆分方案,將預(yù)填充(Prefill)與解碼(Decode)任務(wù)分別交給高/低性能 GPU 執(zhí)行,雖緩解了計(jì)算壓力,卻導(dǎo)致 KV 緩存空間嚴(yán)重不足。而 Hexgen 等采用非對(duì)稱參數(shù)劃分的系統(tǒng),則因計(jì)算能力與內(nèi)存容量的不匹配,造成高端 GPU 內(nèi)存大量閑置。

圖片圖片

更深層的問(wèn)題在于,現(xiàn)有方法普遍采用靜態(tài)并行策略,無(wú)法適應(yīng)請(qǐng)求長(zhǎng)度、批次大小等動(dòng)態(tài)變化。例如,MLP 模塊在 A100 與 P100 上的運(yùn)算速度差距可達(dá) 24.5 倍,若強(qiáng)行統(tǒng)一并行,低效設(shè)備將成為拖累整體性能的“短板”。與此同時(shí),Attention 模塊因其無(wú)參數(shù)特性和較低的計(jì)算強(qiáng)度,在各類(lèi) GPU 上表現(xiàn)相對(duì)均衡,具備更高的并行靈活性。Hetis 正是抓住了這一關(guān)鍵差異,開(kāi)啟了精細(xì)化調(diào)度的新思路。

核心貢獻(xiàn)

方法創(chuàng)新:模塊級(jí)差異化并行架構(gòu)

圖片圖片

Hetis 的核心是“按需分配”的并行哲學(xué)。對(duì)于計(jì)算密集的 MLP 和預(yù)填充階段的 Attention,系統(tǒng)通過(guò)一個(gè)層次化搜索過(guò)程,自動(dòng)篩選出最優(yōu)的主工作節(jié)點(diǎn)組合,并在此子集內(nèi)應(yīng)用數(shù)據(jù)、流水線與張量并行(DP/PP/TP),力求最小化通信開(kāi)銷(xiāo)與計(jì)算延遲。那些未被選中的低端 GPU 則被劃為注意力工作節(jié)點(diǎn)(Attention Workers),專司 Attention 計(jì)算任務(wù)。

圖片圖片

針對(duì) Attention 模塊,Hetis 創(chuàng)新性地采用頭維度(head-wise)進(jìn)行分割。相比按請(qǐng)求或序列長(zhǎng)度拆分,頭級(jí)并行能顯著減少跨設(shè)備通信量。實(shí)驗(yàn)表明,在僅卸載 20%負(fù)載時(shí),頭級(jí)分割的通信開(kāi)銷(xiāo)比序列級(jí)分割降低近2.68 倍;當(dāng)使用 4 個(gè)注意力工作節(jié)點(diǎn)時(shí),延遲優(yōu)勢(shì)可達(dá)3.55 倍。

實(shí)證成果:吞吐與延遲雙重突破

在包含 A100、3090 和 P100 的真實(shí)異構(gòu)集群上,Hetis 展現(xiàn)了卓越性能。測(cè)試涵蓋Llama-13B、OPT-30B和Llama-70B等多種模型及真實(shí)工作負(fù)載(聊天、代碼生成、長(zhǎng)文本摘要)。結(jié)果顯示:

圖片圖片

  • 吞吐量最高提升至基線系統(tǒng)的2.25 倍(對(duì)比 Splitwise)和1.33 倍(對(duì)比 Hexgen);
  • 推理延遲方面,P95 的TTFT(首令牌時(shí)間)和TPOT(每令牌處理時(shí)間)分別改善最多1.47 倍和1.39 倍;
  • KV 緩存空間利用率提升顯著,最大可用緩存空間比基線多出1.87 倍,有效支持更多并發(fā)請(qǐng)求。

這些數(shù)據(jù)充分驗(yàn)證了 Hetis 在復(fù)雜動(dòng)態(tài)環(huán)境下的魯棒性與高效性。

圖片圖片

在方法創(chuàng)新的基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步驗(yàn)證了系統(tǒng)的自適應(yīng)能力。Hetis 內(nèi)置的在線調(diào)度器(Dispatcher)基于對(duì)計(jì)算與通信成本的顯式建模,實(shí)時(shí)決策每個(gè)請(qǐng)求的注意力頭分配方案。當(dāng)遇到超長(zhǎng)上下文導(dǎo)致負(fù)載不均時(shí),系統(tǒng)還能觸發(fā)重調(diào)度機(jī)制(Re-dispatching),動(dòng)態(tài)遷移部分計(jì)算任務(wù),避免單點(diǎn)瓶頸。

此外,為支撐頭級(jí)并行,Hetis 實(shí)現(xiàn)了頭粒度 KV 緩存管理,開(kāi)發(fā)了新的 CUDA 內(nèi)核以高效索引與傳輸緩存塊。盡管存儲(chǔ)元數(shù)據(jù)開(kāi)銷(xiāo)增加13% ,但得益于 CPU 多核加速,緩存獲取時(shí)間反而減少了26% ,實(shí)現(xiàn)了總體性能凈增益。

行業(yè)意義

Hetis 的出現(xiàn),為異構(gòu)算力環(huán)境下的大模型部署提供了全新的技術(shù)范式。它標(biāo)志著 LLM 服務(wù)正從粗放式的資源堆砌,邁向精細(xì)化、動(dòng)態(tài)化的智能調(diào)度時(shí)代。這一思路與國(guó)家倡導(dǎo)的綠色計(jì)算和算力普惠政策高度契合,有助于盤(pán)活存量算力資產(chǎn),降低 AI 應(yīng)用門(mén)檻。

未來(lái),Hetis 所驗(yàn)證的模塊感知并行(Module-aware Parallelism)理念有望推動(dòng)整個(gè)分布式推理技術(shù)路線的演進(jìn)。無(wú)論是邊緣計(jì)算中的混合芯片,還是云平臺(tái)上的搶占式實(shí)例,此類(lèi)動(dòng)態(tài)適配機(jī)制都將成為提升資源利用效率的關(guān)鍵。可以預(yù)見(jiàn),隨著大模型應(yīng)用場(chǎng)景的不斷下沉,像 Hetis 這樣的智能調(diào)度系統(tǒng),將在構(gòu)建高效、可持續(xù)的 AI 基礎(chǔ)設(shè)施中扮演變革性角色。

論文原文:Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism[1]

參考資料

[1] Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism: https://arxiv.org/abs/2509.08309

責(zé)任編輯:武曉燕 來(lái)源: 機(jī)智流
相關(guān)推薦

2025-08-29 01:15:00

大模型Arrow自適應(yīng)

2023-12-11 15:40:32

PyTorch代碼大模型

2024-10-21 12:30:52

2025-11-04 16:01:56

英偉達(dá)模型AI

2025-12-03 07:54:28

2023-06-27 13:49:00

GPU通信RLHF

2023-05-30 14:17:00

模型推理

2024-11-02 10:28:03

2023-06-21 13:20:14

系統(tǒng)模型

2025-10-28 08:50:00

AI模型訓(xùn)練

2024-07-19 09:59:31

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2025-07-30 08:40:00

AI編程模型

2025-09-12 09:03:00

2023-11-30 18:25:57

數(shù)據(jù)訓(xùn)練

2024-07-08 13:04:01

2024-01-24 13:11:00

AI模型

2024-11-01 20:25:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久色在线视频| 亚洲第一福利社区| 91在线视频免费91| 亚洲最大福利网| 91成人在线| 亚洲一区二区三区四区在线观看 | 日本不卡视频在线观看| 91av在线视频观看| 成人免费无遮挡| 欧美美女激情18p| 美臀av在线| 国产女人18毛片水真多成人如厕| 亚洲精品成人三区| 激情欧美一区二区三区| 26uuu亚洲伊人春色| 超薄肉色丝袜脚交一区二区| 欧美一级黄色片| 免费人成在线观看网站| 亚洲色图欧美在线| 亚洲最大成人在线观看| 风流少妇一区二区| 在线精品日韩| 日韩国产精品大片| 鲁丝一区鲁丝二区鲁丝三区| 欧美午夜国产| 91精品国产综合久久香蕉的用户体验| 亚洲精品午夜| 久久香蕉频线观| 九九热这里有精品| 在线观看国产精品91| av日韩中文| 亚洲精品av在线| 9999精品成人免费毛片在线看| 日韩手机在线导航| 黑人极品ⅴideos精品欧美棵| 在线播放中文字幕一区| 成年人网站在线| 日韩女优av电影| 欧美韩日亚洲| 亚洲国产91色在线| av资源中文在线| 亚洲精品视频在线观看视频| 国产精品高清乱码在线观看| 亚洲欧美精品一区二区| 国模视频一区| 欧美肥婆姓交大片| 香蕉国产成人午夜av影院| 日韩免费不卡av| 欧美freesextv| 97中文在线| 日韩中文字幕麻豆| 成人在线免费高清视频| 成人av动漫在线| 97公开免费视频| 亚洲精品国产a| 国产一级免费在线观看| 日韩女优视频免费观看| 黑人一区二区三区| 国产精品久久国产| 国产精品chinese| 51ⅴ精品国产91久久久久久| 国产精品超碰| 欧美亚洲日本国产| 视频一区亚洲| 国产视频一区在线观看一区免费| 午夜啪啪免费视频| 国产高清不卡二三区| 精品九九九九| av日韩在线网站| 国产超碰在线播放| 自拍偷拍欧美激情| 在线观看成人免费| 久久午夜精品| 欧美日韩激情四射| 久久久久久9999| 超碰在线图片| 欧美片在线播放| 欧美精品日日操| 久久国产精品久久久久久久久久| 伊人久久大香线蕉av超碰| 91精品国产综合久久香蕉最新版| 久久狠狠婷婷| 91香蕉视频污版| 午夜国产不卡在线观看视频| 国产原厂视频在线观看| www.国产精品一二区| 成人高清电影网站| 亚洲人久久久| 亚洲你懂的在线视频| 综合图区亚洲| 久久久久久久久久久亚洲| 国产精品第十页| 欧美 日韩 国产 高清| 欧美日韩免费在线观看| 黑人精品一区| 国产精品露脸自拍| 国产精品一区二区在线观看不卡 | 中文字幕av日韩精品| 国产日韩欧美激情| 九九热视频在线观看| 国产亚洲欧美另类中文| 香蕉综合视频| 青青青在线播放| 8x8x8国产精品| 啪啪国产精品| 黄黄视频在线观看| 在线视频中文字幕一区二区| 日韩欧美高清一区二区三区| 蜜桃视频成人| 亚洲一区二区在线免费观看视频| а_天堂中文在线| 国产在线999| 久久久久久免费| bl视频在线免费观看| 国产欧美日韩中文字幕| 久久品道一品道久久精品| 欧美videosex性欧美黑吊| 国产欧美日韩免费看aⅴ视频| 91蜜桃婷婷狠狠久久综合9色| 粗大黑人巨茎大战欧美成人| 国产成人免费av| 久久久综合精品| 理论不卡电影大全神| 精品国产二区在线| 亚洲一区二三区| 国产伦理久久久久久妇女 | 男人艹女人在线观看| 亚洲成人a**站| 欧美日韩一区自拍| baoyu777.永久免费视频| 色综久久综合桃花网| 秋霞午夜鲁丝一区二区老狼| 在线看a视频| 日本久久久a级免费| 91亚洲精品一区二区乱码| 丝袜美女在线观看| 国产精华一区| 欧美日韩久久久久| 精品视频国产| 性生大片免费观看性| 国外成人免费在线播放| 91影院在线免费观看| 国产成+人+综合+亚洲欧美| 国产免费色视频| 亚洲第一中文字幕在线观看| 亚洲一区黄色| 福利成人在线观看| 国产精品久久久久久影视 | 中国一区二区三区| 在线不卡中文字幕播放| 中文字幕免费一区二区三区| 最近最新mv在线观看免费高清| 2021国产精品视频| 中文字幕人成不卡一区| 日韩高清影视在线观看| 二区视频在线| 91精品国产综合久久久久久蜜臀 | 精品激情国产视频| 韩日av一区二区| 草莓视频丝瓜在线观看丝瓜18| 欧美日韩电影一区二区三区| 欧美一区二区不卡视频| 午夜在线一区| av免费不卡国产观看| 国产传媒久久久| 欧美xxxx14xxxxx性爽| 涩爱av色老久久精品偷偷鲁 | 小水嫩精品福利视频导航| 91高潮在线观看| 欧美亚洲一区在线| 亚洲成人黄色网址| 在线观看入口黄最新永久免费国产| 日韩在线免费观看视频| 97久久超碰国产精品| 国产成年精品| 日本久久精品一区二区| 国产精品成久久久久三级| 亚洲成a天堂v人片| 亚洲国内精品| 国产中文在线播放| 欧美牲交a欧美牲交aⅴ免费真| 午夜精品一区二区三区在线播放| 亚洲一二三区视频在线观看| 99视频精品| 巨胸喷奶水www久久久免费动漫| 天天操天天爱天天爽| 国产精品视频一区二区高潮| 在线不卡的av| av电影在线观看一区| 亚洲三级性片| 日本韩国在线视频爽| 自拍偷拍99| 久久久久久久久久婷婷| 色综合久久中文字幕综合网| 久久99精品久久久久| av日韩在线播放| 成人在线免费观看| 欧美无砖专区免费| 国产精品女主播| 亚洲精品动漫久久久久|