国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

英偉達Blackwell稱霸MLPerf!推理性能暴漲30倍,新一代「AI怪獸」誕生

人工智能 新聞
MLPerf Inference發(fā)布了最新測試結(jié)果,英偉達最新的Blackwell架構(gòu)芯片上場與谷歌、AMD同場競技,展現(xiàn)出明顯的性能提升,甚至刷新了部分任務(wù)上的測試紀錄。

大語言模型(LLM)推理是一個全棧挑戰(zhàn)。

為了實現(xiàn)高吞吐量、低延遲的性能,不僅需要強大的GPU,還需要高帶寬的芯片互連技術(shù)、高效的加速庫以及高度優(yōu)化的推理引擎。

就在剛剛,MLCommons發(fā)布了基準測試套件MLPerf Inference v4.1的最新測試結(jié)果,此次發(fā)布涵蓋了專家混合(MoE)模型架構(gòu)的首次評測結(jié)果,展示了與推理功耗相關(guān)的新發(fā)現(xiàn)。

圖片

MLCommons在最新的AI基準測試中添加了MoE模型

MLPerf是一個流行且得到廣泛認可的測試套件,以架構(gòu)中立、具有代表性和可重復(fù)的方式提供機器學習系統(tǒng)的性能基準測試,每年更新兩次

本輪測試的參賽者如下:

  • AMD MI300x加速器(已上市)
  • AMD EPYC 「Turin」 CPU(預(yù)覽版)
  • Google 「Trillium」 TPUv6e加速器(預(yù)覽版)
  • Intel 「Granite Rapids」 Xeon CPU(預(yù)覽版)
  • NVIDIA 「Blackwell」 B200加速器(預(yù)覽版)
  • UntetherAI SpeedAI 240 Slim(已上市)和SpeedAI 240加速器(預(yù)覽版)

Blackwell首秀大放異彩

其中,英偉達在這一輪測試中的提交帶來了許多令人矚目的結(jié)果。亮點包括:

  • 首次使用Blackwell 架構(gòu),相較于上一代的H100 GPU,在Llama 2 70B上實現(xiàn)高達4倍的性能提升
  • 針對每個數(shù)據(jù)中心的工作負載上,H200相較于H100的性能提升高達1.5倍
  • 得益于軟件改進,H200在這一輪的提交相比上一輪的預(yù)覽版本,性能提升高達27%
  • 首次使用Triton推理服務(wù)器提交Llama 2 70B,性能與TensorRT-LLM相似
  • 在邊緣推理類中,相較于上一輪使用Jetson AGX Orin平臺的結(jié)果,本輪GPT-J基準測試中的性能提升高達6.2倍

Blackwell架構(gòu)首次亮相還要追溯到今年3月的GTC大會上。這個還沒投入量產(chǎn)的最新款芯片由2080億個晶體管構(gòu)成,采用臺積電為英偉達量身定制的4nm工藝,是有史以來最大的GPU。

此外,Blackwell架構(gòu)還配備了第二代Transformer引擎,結(jié)合了新的Blackwell Tensor Core技術(shù)和TensorRT-LLM創(chuàng)新,能夠?qū)崿F(xiàn)快速且精確的FP4 AI推理。

本輪MLPerf是英偉達首次提交Blackwell。在Llama 2 70B模型上測試時,B200 GPU的token吞吐量比H100 GPU高出了4倍。

圖片

對于參數(shù)量更大的模型,比如1.8T的GPT-MoE,Blackwell的優(yōu)勢更加明顯,相比H100甚至實現(xiàn)了30×的性能提升。

圖片

為何如此之強?

Blackwell成功的原因之一就是使用4位浮點精度(FP4)運行模型。

事實上,減少浮點數(shù)的位數(shù)也一直是提高推理效率的常用手段,H100就引入了FP8精度,而這次Blackwell更是在MLPerf提交中創(chuàng)下了浮點位數(shù)新低。

英偉達產(chǎn)品營銷總監(jiān)Dave Salvator表示,使用如此低精度數(shù)字的最大挑戰(zhàn)是保持準確性,為此,團隊在軟件方面進行了重大創(chuàng)新。

Blackwell成功的另一個重要因素是——內(nèi)存帶寬幾乎翻倍,達到8TB/s;相比之下,H200為4.8TB/s。

雖然本次Blackwell僅以單芯片形式提交,但Salvator表示,它是為GPU網(wǎng)絡(luò)和擴展而生的,與英偉達的NVLink互連技術(shù)結(jié)合可以呈現(xiàn)最佳效果。

Blackwell GPU支持多達18個NVLink同時以100GB/s帶寬的連接,達到的總帶寬就是1.8TB/s,大約是H100互連帶寬的兩倍。

圖片

H200性能再獲提升

H200 GPU采用了業(yè)界最快的AI內(nèi)存技術(shù)——HBM3e。與H100相比,容量提高了1.8倍,帶寬提高了1.4倍,十分利于內(nèi)存敏感的應(yīng)用場景。

圖片

H200在各模型上的測試結(jié)果,其中Llama 2 70B使用功率為1000W的H200,其他結(jié)果均使用700W的H200

Llama 2 70B

MLPerf在上一輪測試中首次引入Llama 2 70B模型,代表流行的70B級別的參數(shù)稠密型LLM。

僅通過TensorRT-LLM的軟件改進,H200運行Llama 2 70B模型的性能就比前一輪的預(yù)覽提交提高了多達14%。

圖片

本輪的關(guān)鍵改進包括XQA內(nèi)核優(yōu)化以及額外的層融合。

通過使用定制的散熱解決方案,H200的熱設(shè)計功耗 (TDP) 提高到了1000W,使得Llama 2 70B基準測試的性能相比700W的H200額外提高了多達12%。

本輪中,英偉達還提交了使用 H200 GPU運行Triton推理服務(wù)器的結(jié)果,表現(xiàn)與單機提交相似。

圖片

在Triton推理服務(wù)器的加持下,部署模型時無需在功能和性能之間進行取舍

從結(jié)果中可以看出,通過更廣泛的模型級優(yōu)化,可以實現(xiàn)性能的提升。

首先,應(yīng)用深度剪枝和寬度剪枝,智能地移除對整體模型輸出不太重要的層和MLP中間維度,大大減少了參數(shù)總數(shù)。

然后,為了恢復(fù)準確性,使用MLPerf OpenORCA開發(fā)數(shù)據(jù)集對模型進行了微調(diào)。

最終,剪枝后的模型有32層和14,336個MLP中間維度,相比原始模型的80層和28,672個中間維度有了顯著減少。

雖然模型的準確率略低于99%的閾值,但體量顯著變小,使得離線吞吐量高達11,189 token/s,幾乎是封閉組中其他模型吞吐量的3倍。

圖片

Mixtral 8x7B

本輪MLPerf新增了Mixtral 8x7B模型的工作負載,采用MoE架構(gòu),共包含8個專家,總參數(shù)量為46.7B,每個token使用2個專家和12.9B參數(shù)。

英偉達提交了H100和H200 GPU使用TensorRT-LLM 軟件以FP8精度運行Mixtral 8x7B的結(jié)果。

圖片

Stable Diffusion XL

在本輪中,H200的性能提高到每秒生成兩張圖像,與上一輪相比提升了 27%,刷新了本項基準測試的紀錄。

圖片

這些性能提升主要歸功于對軟件棧的幾項關(guān)鍵優(yōu)化,包括:

  • UNet FP8支持:使用了TensorRT 優(yōu)化器,在FP8精度下滿足了準確性要求,在Hopper GPU的逐輪性能提升中占據(jù)比例最大
  • VAE INT8支持:將某些層量化為INT8,其他層則量化為FP16,相比于上一輪使用的FP32實現(xiàn)了70%的性能提升,以及約4%的端到端速度提升

變分自編碼器(VAE)批分割:SDXL管道中的VAE部分需要非常大的內(nèi)存占用。通過采用批分割,將批大小從8增加到64,從而提高了性能

圖片

此外,在開放組提交中,英偉達結(jié)合了上述優(yōu)化和LCM,將封閉組離線吞吐量在H200上加速了近5倍,達到每秒11個樣本。

圖片

Jetson AGX Orin巨大飛躍

邊緣的GenAI模型可以將傳感器數(shù)據(jù)(如圖像和視頻)轉(zhuǎn)化為具有強大上下文感知能力的實時可執(zhí)行結(jié)果。

在英偉達軟件棧的支持下,Jetson AGX Orin瞄準在邊緣運行Transformer模型,如GPT-J、視覺 Transformer和Stable Diffusion,為邊緣的生成式AI提供了高計算性能、大容量統(tǒng)一內(nèi)存和全面的軟件支持。

通過廣泛的軟件優(yōu)化,在GPT-J 6B模型的基準測試中,吞吐量提高了多達6.2倍,延遲改善了2.4倍。

圖片

這種性能提升得益于對TensorRT-LLM的眾多軟件優(yōu)化,包括使用運行中批處理以及INT4激活感知權(quán)重量化(AWQ)。

AWQ將1%的「重要權(quán)重」用更高精度的FP16存儲,但其余權(quán)重被量化為INT4精度,顯著減少了內(nèi)存占用,使得GPU可以一次處理更多數(shù)據(jù)批,大幅提高推理吞吐量。

AI推理,競爭白熱化

雖然英偉達GPU 在AI訓練方面的主導地位仍無可爭議,而且新款Blackwell芯片的絕對性能很難被超越;但AI推理領(lǐng)域競爭對手正在迎頭趕上,特別是在能效方面。

圖片

就像奧運會一樣,MLPerf設(shè)置了許多類別,其中提交數(shù)量最多的是「數(shù)據(jù)中心封閉組」。

封閉組別(與開放相對)要求提交者在給定模型上按原樣運行推理,而不進行重大軟件修改。

數(shù)據(jù)中心組著重測試大量查詢處理的能力,而邊緣組側(cè)重于最小化延遲。

圖片

每個類別包含9個不同的基準測試,針對不同類型的AI任務(wù),包括流行的用例,如圖像生成(類似Midjourney)和LLM問答(類似ChatGPT),以及同樣重要但不太知名的任務(wù),如圖像分類、物體檢測和推薦引擎。

本輪比賽新增了一個名為「混合專家」的基準測試,這是LLM部署中的一個增長趨勢,其中一個模型被分解為幾個較小的、獨立的模型,分別針對特定任務(wù)進行微調(diào),如常規(guī)對話、解決數(shù)學問題和協(xié)助編程。

推理時,模型可以將用戶輸入的查詢定向到相應(yīng)的「專家模型」。

MLPerf推理工作組主席兼AMD技術(shù)組高級成員Miroslav Hodak表示,這種方法允許每個查詢使用更少的資源,從而降低成本并提高吞吐量。

在數(shù)據(jù)中心封閉組中,每個基準測試的獲勝者仍然是英偉達的H200 GPU和GH200超級芯片。然而,仔細查看性能結(jié)果,就會發(fā)現(xiàn)更復(fù)雜的情況。

其中有些提交結(jié)果使用了多個芯片,有些則只使用了單個芯片;GH200芯片則是將GPU和CPU集成在同一封裝中。

如果將每個提交結(jié)果的查詢吞吐量按加速器數(shù)量進行歸一化,且僅保留每種加速器類型的最佳成績,則會出現(xiàn)一些有趣的細節(jié)。(需要注意的是,這種方法忽略了CPU和GPU互連技術(shù)的作用)

按每個加速器計算,英偉達的Blackwell在LLM問答任務(wù)上比所有以前的芯片高出2.5倍。

Untether AI的speedAI240 Preview芯片在其唯一提交的圖像識別任務(wù)中幾乎與H200的表現(xiàn)持平。

相比之下,谷歌的Trillium的圖像生成能力僅為H100和H200的一半多一點,而AMD的Instinct在LLM問答任務(wù)上與H100大致相當。

圖片

AMD MI300X打平H100,但H200快了40%

在紙面參數(shù)上,MI300X比H100和H200擁有更大的HBM容量和帶寬(MI300X擁有192 GB和5.2 TB/s,而H200為141 GB和4.8 TB/s),且FLOPS也略高一些。

理論上,192 GB足以在一個芯片上容納整個Llama2-70B模型加上KV緩存,從而避免了將模型分割到多個GPU上帶來的網(wǎng)絡(luò)開銷。

但在運行實際AI工作負載時,它并沒有實現(xiàn)對H100的超越(差距在3-4%以內(nèi)),相比于H200 141GB則落后約30-40%。

圖片

Untether.ai展示高能效推理方法

眾所周知,ASIC可以提供更高效的AI推理能力,但不如GPU那樣全能。

不過,Untether.ai似乎打破了這個「魔咒」。

在Resnet-50上,SpeedAI 240系列有著十分出色的能效表現(xiàn)——性能與H100-NV相當,但功耗要則低得多。

圖片

那么,Untether平臺在LLM上的表現(xiàn)如何呢?

很遺憾,工程師并沒能趕上MLPerf的DDL。不過,他們在完成了BERT基準測試的優(yōu)化之后,還是把結(jié)果分享了出來。

同樣,性能與H100-NVL相當,但在能效上具有超過3倍的優(yōu)勢。

圖片

Cerebras和Furiosa沒參賽,但發(fā)了新芯片

AI芯片初創(chuàng)Cerebras的理念非常簡單粗暴——把芯片做大到硅晶圓所能承載的極限,進而避免芯片之間的互連,并大幅提高設(shè)備的內(nèi)存帶寬。

雖然這次沒有提交MLPerf測試,但Cerebras表示,自家平臺在每秒token的生成上,要比H100快7倍、比Groq快2倍。

對此,首席執(zhí)行官兼聯(lián)合創(chuàng)始人Andrew Feldman表示:「今天我們處于生成式AI的撥號時代,這是因為存在內(nèi)存帶寬瓶頸。無論是H100。還是MI 300或TPU,它們都使用相同的片外內(nèi)存,并產(chǎn)生相同的限制。我們突破了這一點,因為我們是晶圓級的。」

圖片

另一家初創(chuàng)Furiosa則發(fā)布了基于張量收縮處理器(TCP)架構(gòu)的第二代芯片RNGD(讀作renegade)。

AI工作負載中的基本操作是矩陣乘法,通常作為硬件中的原語實現(xiàn)。然而,矩陣(一般稱為張量)的大小和形狀會有很大的差異。而RNGD則將這種更廣義的矩陣——張量乘法作為原語來實現(xiàn)。

根據(jù)內(nèi)部的測試,F(xiàn)uriosa在性能上與英偉達L40S芯片相當,且功耗僅為185瓦,相比之下,L40S則高達320瓦。

與此同時,IBM也發(fā)布了他們的Spyre芯片,用于企業(yè)生成式AI工作負載,預(yù)計將在2025年第一季度上市。

可以說,AI推理芯片的競爭是越來越激烈了。如此看來,這個市場在短時間內(nèi)絕對會非常精彩。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-19 10:10:43

2019-09-25 14:34:15

AI 數(shù)據(jù)人工智能

2023-09-10 12:37:38

模型英偉達

2025-04-07 09:00:00

數(shù)據(jù)測試工具

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2020-05-29 15:40:40

NVIDIA

2023-11-30 18:25:57

數(shù)據(jù)訓練

2025-04-21 09:07:00

2013-11-27 11:16:17

Clumsy Ninj手機游戲

2023-04-05 14:31:49

AI超算人工智能

2024-06-26 13:15:40

2025-05-29 09:14:17

2024-03-19 07:34:05

AI英偉達人工智能

2024-11-21 13:40:35

英偉達Q3財報AI芯片

2021-09-23 11:44:54

NVIDIA

2025-02-27 09:09:45

2023-09-14 13:23:00

AI芯片

2025-12-09 11:46:50

英偉達H200Blackwell

2020-10-23 14:05:39

AI 服務(wù)器測試
點贊
收藏

51CTO技術(shù)棧公眾號

欧美激情久久久久久| 一区二区三区高清在线视频| 亚洲欧美偷拍三级| 99热免费观看| 亚洲成av人影院在线观看| 第一会所亚洲原创| 日韩av超清在线观看| 亚洲成a人v欧美综合天堂| 日本在线观看网站| 欧美一区二区影院| 国产一区二区在线影院| 阿v免费在线观看| 久久青草精品视频免费观看| 国产乱子轮精品视频| 日本一区二区高清视频| 亚洲一级二级三级| 97品白浆高清久久久久久| 亚洲自拍的二区三区| 欧美性色黄大片| 亚洲色图美女| 成年在线观看视频| 久久亚洲一区二区三区四区| a免费在线观看| 国产a一区二区| aaa欧美日韩| 国产中文字幕在线观看| 欧美三日本三级三级在线播放| av不卡一区| 奇米影视亚洲色图| 日韩电影视频免费| 成人亚洲一区| 国产免费视频| 精品国产欧美一区二区五十路| 国产一区二区三区精品视频| 青春草在线免费视频| 高清av免费一区中文字幕| 亚洲精品日日夜夜| 亚洲人成网www| 成人免费淫片免费观看| 色999日韩欧美国产| 老司机午夜精品| 成人免费看片| 国产一区二区高清视频| 日本精品视频一区二区三区| 国产日韩欧美一区二区三区| 日日碰狠狠躁久久躁婷婷| 久久天堂电影网| 成人免费视频视频在线观看免费| 成人免费直播| 青青草精品视频在线| 日韩在线观看网址| 欧美性受ⅹ╳╳╳黑人a性爽| 亚洲男帅同性gay1069| 日韩电影不卡一区| 福利在线白白| 欧美中文在线字幕| 亚洲综合激情网| 日韩dvd碟片| av网站在线播放| 国产成人精品电影久久久| 亚洲中国最大av网站| 91精品推荐| 国产精品一卡二卡三卡| 一区二区精品视频| 日韩经典中文字幕| 国产美女精品人人做人人爽| 永久av在线| 亚洲制服中文| 亚洲毛片在线观看| 国产成人免费视频网站| 偷拍自拍在线看| 91av资源网| 欧美肥婆姓交大片| 一区二区在线观看视频在线观看| 日韩精品一区二区三区免费观影| 黄色av网站在线| 亚洲综合av一区| 亚洲精品在线视频观看| 成人小视频免费在线观看| 亚洲一区二区在线免费观看| 亚洲精品小视频| 国产偷国产偷精品高清尤物| 成人综合专区| 日韩三级免费| 精品无码国模私拍视频| 国产成人在线精品| 91久久精品一区二区三区| 国产精一区二区| 超碰在线图片| 日韩精品大片| 欧美成人精品激情在线观看| 日韩av一区二| 超碰在线一区| 精品孕妇一区二区三区| 国产淫片av片久久久久久| 国产日韩精品在线播放| 91精品国产高清一区二区三区| 成人看片在线观看| 93久久精品日日躁夜夜躁欧美| 精品午夜久久| 欧美精品国产| 久久全国免费视频| av男人的天堂网| 亚洲猫色日本管| 亚洲永久免费| 欧美中文字幕第一页| 亚洲国产精品一区| 国产欧美一区视频| 中文字幕欧美一区| 亚洲一二三在线| 桃子视频成人app| 欧美一级黄色片视频| 91九色单男在线观看| 中文字幕欧美日韩精品| 色综合久久综合网| 国产日韩欧美精品在线| 日韩精品电影在线| 日本高清成人vr专区| 黄色片av在线| 成年人网站免费视频| 精品国产乱码久久久久软件| 欧美激情奇米色| 亚洲成人免费网站| 日韩欧美亚洲范冰冰与中字| 久久久久国产免费免费| 另类小说综合欧美亚洲| 国产一区欧美| 精品国产一区二区三区久久久蜜臀| 久久精品97| 情趣视频网站在线免费观看| 伊人色综合影院| 国产精品爱久久久久久久| 欧美视频中文字幕在线| 国产亚洲综合在线| 亚洲国产天堂网精品网站| 国产一区二区三区免费观看在线 | 欧美日产国产精品| 宅男在线国产精品| 一区二区三区波多野结衣在线观看| 不卡电影免费在线播放一区| 视频在线观看一区二区三区| 亚洲午夜精品久久久久久app| 亚洲综合图色| 欧美精品三级在线| 欧美videosex性极品hd| 在线免费国产视频| 2025韩国理伦片在线观看| 免费特级黄色片| 四虎4hu永久免费入口| 亚洲韩国在线| 亚洲7777| 五月天久久综合网| 神马欧美一区二区| 日本高清久久一区二区三区| 国产麻豆日韩| 一区二区三区自拍| 97精品国产aⅴ7777| 欧美一区二区高清| 国产一二三在线| 青青草原国产免费| 97se亚洲综合| 日本成人在线不卡视频| 50度灰在线观看| 国产91精品久久久久久| 在线观看国产日韩| 国产精品国产自产拍高清av王其| 国产一区2区在线观看| 国产欧美视频一区二区三区| 日韩精品在线免费观看视频| 日韩在线无毛| 久久久亚洲精选| 久久久久久国产精品| 久久久视频免费观看| 色婷婷综合久久久| 欧美日韩一卡二卡| 制服丝袜中文字幕亚洲| 欧美成人精品福利| 精品亚洲男同gayvideo网站| 亚洲午夜在线观看视频在线| 亚洲国产成人在线| 亚洲一区二区三区激情| 欧美性xxxxx极品| 91精品国模一区二区三区| 精品国产免费一区二区三区四区| 亚洲女人被黑人巨大进入al| 久久香蕉国产线看观看网| 欧美日韩性生活| 日韩三区在线| 丰满人妻一区二区三区53号| 91精品国产综合久久久久久| 久久综合久久88| 亚洲一区精品电影| 日韩欧美卡一卡二| www成人免费视频| 91|九色|视频| 国产一区二区在线网站 | free性护士videos欧美| h片在线观看视频免费| 日韩中文字幕一区二区| 成人午夜电影在线播放|