英偉達Blackwell稱霸MLPerf！推理性能暴漲30倍，新一代「AI怪獸」誕生

作者：新智元 2024-08-29 12:58:35

MLPerf Inference發(fā)布了最新測試結(jié)果，英偉達最新的Blackwell架構(gòu)芯片上場與谷歌、AMD同場競技，展現(xiàn)出明顯的性能提升，甚至刷新了部分任務(wù)上的測試紀錄。

大語言模型（LLM）推理是一個全棧挑戰(zhàn)。

為了實現(xiàn)高吞吐量、低延遲的性能，不僅需要強大的GPU，還需要高帶寬的芯片互連技術(shù)、高效的加速庫以及高度優(yōu)化的推理引擎。

就在剛剛，MLCommons發(fā)布了基準測試套件MLPerf Inference v4.1的最新測試結(jié)果，此次發(fā)布涵蓋了專家混合（MoE）模型架構(gòu)的首次評測結(jié)果，展示了與推理功耗相關(guān)的新發(fā)現(xiàn)。

MLCommons在最新的AI基準測試中添加了MoE模型

MLPerf是一個流行且得到廣泛認可的測試套件，以架構(gòu)中立、具有代表性和可重復(fù)的方式提供機器學習系統(tǒng)的性能基準測試，每年更新兩次

本輪測試的參賽者如下：

AMD MI300x加速器（已上市）
AMD EPYC 「Turin」 CPU（預(yù)覽版）
Google 「Trillium」 TPUv6e加速器（預(yù)覽版）
Intel 「Granite Rapids」 Xeon CPU（預(yù)覽版）
NVIDIA 「Blackwell」 B200加速器（預(yù)覽版）
UntetherAI SpeedAI 240 Slim（已上市）和SpeedAI 240加速器（預(yù)覽版）

Blackwell首秀大放異彩

其中，英偉達在這一輪測試中的提交帶來了許多令人矚目的結(jié)果。亮點包括：

首次使用Blackwell 架構(gòu)，相較于上一代的H100 GPU，在Llama 2 70B上實現(xiàn)高達4倍的性能提升
針對每個數(shù)據(jù)中心的工作負載上，H200相較于H100的性能提升高達1.5倍
得益于軟件改進，H200在這一輪的提交相比上一輪的預(yù)覽版本，性能提升高達27%
首次使用Triton推理服務(wù)器提交Llama 2 70B，性能與TensorRT-LLM相似
在邊緣推理類中，相較于上一輪使用Jetson AGX Orin平臺的結(jié)果，本輪GPT-J基準測試中的性能提升高達6.2倍

Blackwell架構(gòu)首次亮相還要追溯到今年3月的GTC大會上。這個還沒投入量產(chǎn)的最新款芯片由2080億個晶體管構(gòu)成，采用臺積電為英偉達量身定制的4nm工藝，是有史以來最大的GPU。

此外，Blackwell架構(gòu)還配備了第二代Transformer引擎，結(jié)合了新的Blackwell Tensor Core技術(shù)和TensorRT-LLM創(chuàng)新，能夠?qū)崿F(xiàn)快速且精確的FP4 AI推理。

本輪MLPerf是英偉達首次提交Blackwell。在Llama 2 70B模型上測試時，B200 GPU的token吞吐量比H100 GPU高出了4倍。

對于參數(shù)量更大的模型，比如1.8T的GPT-MoE，Blackwell的優(yōu)勢更加明顯，相比H100甚至實現(xiàn)了30×的性能提升。

為何如此之強？

Blackwell成功的原因之一就是使用4位浮點精度（FP4）運行模型。

事實上，減少浮點數(shù)的位數(shù)也一直是提高推理效率的常用手段，H100就引入了FP8精度，而這次Blackwell更是在MLPerf提交中創(chuàng)下了浮點位數(shù)新低。

英偉達產(chǎn)品營銷總監(jiān)Dave Salvator表示，使用如此低精度數(shù)字的最大挑戰(zhàn)是保持準確性，為此，團隊在軟件方面進行了重大創(chuàng)新。

Blackwell成功的另一個重要因素是——內(nèi)存帶寬幾乎翻倍，達到8TB/s；相比之下，H200為4.8TB/s。

雖然本次Blackwell僅以單芯片形式提交，但Salvator表示，它是為GPU網(wǎng)絡(luò)和擴展而生的，與英偉達的NVLink互連技術(shù)結(jié)合可以呈現(xiàn)最佳效果。

Blackwell GPU支持多達18個NVLink同時以100GB/s帶寬的連接，達到的總帶寬就是1.8TB/s，大約是H100互連帶寬的兩倍。

H200性能再獲提升

H200 GPU采用了業(yè)界最快的AI內(nèi)存技術(shù)——HBM3e。與H100相比，容量提高了1.8倍，帶寬提高了1.4倍，十分利于內(nèi)存敏感的應(yīng)用場景。

H200在各模型上的測試結(jié)果，其中Llama 2 70B使用功率為1000W的H200，其他結(jié)果均使用700W的H200

Llama 2 70B

MLPerf在上一輪測試中首次引入Llama 2 70B模型，代表流行的70B級別的參數(shù)稠密型LLM。

僅通過TensorRT-LLM的軟件改進，H200運行Llama 2 70B模型的性能就比前一輪的預(yù)覽提交提高了多達14%。

本輪的關(guān)鍵改進包括XQA內(nèi)核優(yōu)化以及額外的層融合。

通過使用定制的散熱解決方案，H200的熱設(shè)計功耗 (TDP) 提高到了1000W，使得Llama 2 70B基準測試的性能相比700W的H200額外提高了多達12%。

本輪中，英偉達還提交了使用 H200 GPU運行Triton推理服務(wù)器的結(jié)果，表現(xiàn)與單機提交相似。

在Triton推理服務(wù)器的加持下，部署模型時無需在功能和性能之間進行取舍

從結(jié)果中可以看出，通過更廣泛的模型級優(yōu)化，可以實現(xiàn)性能的提升。

首先，應(yīng)用深度剪枝和寬度剪枝，智能地移除對整體模型輸出不太重要的層和MLP中間維度，大大減少了參數(shù)總數(shù)。

然后，為了恢復(fù)準確性，使用MLPerf OpenORCA開發(fā)數(shù)據(jù)集對模型進行了微調(diào)。

最終，剪枝后的模型有32層和14,336個MLP中間維度，相比原始模型的80層和28,672個中間維度有了顯著減少。

雖然模型的準確率略低于99%的閾值，但體量顯著變小，使得離線吞吐量高達11,189 token/s，幾乎是封閉組中其他模型吞吐量的3倍。

Mixtral 8x7B

本輪MLPerf新增了Mixtral 8x7B模型的工作負載，采用MoE架構(gòu)，共包含8個專家，總參數(shù)量為46.7B，每個token使用2個專家和12.9B參數(shù)。

英偉達提交了H100和H200 GPU使用TensorRT-LLM 軟件以FP8精度運行Mixtral 8x7B的結(jié)果。

Stable Diffusion XL

在本輪中，H200的性能提高到每秒生成兩張圖像，與上一輪相比提升了 27%，刷新了本項基準測試的紀錄。

這些性能提升主要歸功于對軟件棧的幾項關(guān)鍵優(yōu)化，包括：

UNet FP8支持：使用了TensorRT 優(yōu)化器，在FP8精度下滿足了準確性要求，在Hopper GPU的逐輪性能提升中占據(jù)比例最大
VAE INT8支持：將某些層量化為INT8，其他層則量化為FP16，相比于上一輪使用的FP32實現(xiàn)了70%的性能提升，以及約4%的端到端速度提升

變分自編碼器（VAE）批分割：SDXL管道中的VAE部分需要非常大的內(nèi)存占用。通過采用批分割，將批大小從8增加到64，從而提高了性能

此外，在開放組提交中，英偉達結(jié)合了上述優(yōu)化和LCM，將封閉組離線吞吐量在H200上加速了近5倍，達到每秒11個樣本。

Jetson AGX Orin巨大飛躍

邊緣的GenAI模型可以將傳感器數(shù)據(jù)（如圖像和視頻）轉(zhuǎn)化為具有強大上下文感知能力的實時可執(zhí)行結(jié)果。

在英偉達軟件棧的支持下，Jetson AGX Orin瞄準在邊緣運行Transformer模型，如GPT-J、視覺 Transformer和Stable Diffusion，為邊緣的生成式AI提供了高計算性能、大容量統(tǒng)一內(nèi)存和全面的軟件支持。

通過廣泛的軟件優(yōu)化，在GPT-J 6B模型的基準測試中，吞吐量提高了多達6.2倍，延遲改善了2.4倍。

這種性能提升得益于對TensorRT-LLM的眾多軟件優(yōu)化，包括使用運行中批處理以及INT4激活感知權(quán)重量化（AWQ）。

AWQ將1%的「重要權(quán)重」用更高精度的FP16存儲，但其余權(quán)重被量化為INT4精度，顯著減少了內(nèi)存占用，使得GPU可以一次處理更多數(shù)據(jù)批，大幅提高推理吞吐量。

AI推理，競爭白熱化

雖然英偉達GPU 在AI訓練方面的主導地位仍無可爭議，而且新款Blackwell芯片的絕對性能很難被超越；但AI推理領(lǐng)域競爭對手正在迎頭趕上，特別是在能效方面。

就像奧運會一樣，MLPerf設(shè)置了許多類別，其中提交數(shù)量最多的是「數(shù)據(jù)中心封閉組」。

封閉組別（與開放相對）要求提交者在給定模型上按原樣運行推理，而不進行重大軟件修改。

數(shù)據(jù)中心組著重測試大量查詢處理的能力，而邊緣組側(cè)重于最小化延遲。

每個類別包含9個不同的基準測試，針對不同類型的AI任務(wù)，包括流行的用例，如圖像生成（類似Midjourney）和LLM問答（類似ChatGPT），以及同樣重要但不太知名的任務(wù)，如圖像分類、物體檢測和推薦引擎。

本輪比賽新增了一個名為「混合專家」的基準測試，這是LLM部署中的一個增長趨勢，其中一個模型被分解為幾個較小的、獨立的模型，分別針對特定任務(wù)進行微調(diào)，如常規(guī)對話、解決數(shù)學問題和協(xié)助編程。

推理時，模型可以將用戶輸入的查詢定向到相應(yīng)的「專家模型」。

MLPerf推理工作組主席兼AMD技術(shù)組高級成員Miroslav Hodak表示，這種方法允許每個查詢使用更少的資源，從而降低成本并提高吞吐量。

在數(shù)據(jù)中心封閉組中，每個基準測試的獲勝者仍然是英偉達的H200 GPU和GH200超級芯片。然而，仔細查看性能結(jié)果，就會發(fā)現(xiàn)更復(fù)雜的情況。

其中有些提交結(jié)果使用了多個芯片，有些則只使用了單個芯片；GH200芯片則是將GPU和CPU集成在同一封裝中。

如果將每個提交結(jié)果的查詢吞吐量按加速器數(shù)量進行歸一化，且僅保留每種加速器類型的最佳成績，則會出現(xiàn)一些有趣的細節(jié)。（需要注意的是，這種方法忽略了CPU和GPU互連技術(shù)的作用）

按每個加速器計算，英偉達的Blackwell在LLM問答任務(wù)上比所有以前的芯片高出2.5倍。

Untether AI的speedAI240 Preview芯片在其唯一提交的圖像識別任務(wù)中幾乎與H200的表現(xiàn)持平。

相比之下，谷歌的Trillium的圖像生成能力僅為H100和H200的一半多一點，而AMD的Instinct在LLM問答任務(wù)上與H100大致相當。

AMD MI300X打平H100，但H200快了40%

在紙面參數(shù)上，MI300X比H100和H200擁有更大的HBM容量和帶寬（MI300X擁有192 GB和5.2 TB/s，而H200為141 GB和4.8 TB/s），且FLOPS也略高一些。

理論上，192 GB足以在一個芯片上容納整個Llama2-70B模型加上KV緩存，從而避免了將模型分割到多個GPU上帶來的網(wǎng)絡(luò)開銷。

但在運行實際AI工作負載時，它并沒有實現(xiàn)對H100的超越（差距在3-4%以內(nèi)），相比于H200 141GB則落后約30-40%。

Untether.ai展示高能效推理方法

眾所周知，ASIC可以提供更高效的AI推理能力，但不如GPU那樣全能。

不過，Untether.ai似乎打破了這個「魔咒」。

在Resnet-50上，SpeedAI 240系列有著十分出色的能效表現(xiàn)——性能與H100-NV相當，但功耗要則低得多。

那么，Untether平臺在LLM上的表現(xiàn)如何呢？

很遺憾，工程師并沒能趕上MLPerf的DDL。不過，他們在完成了BERT基準測試的優(yōu)化之后，還是把結(jié)果分享了出來。

同樣，性能與H100-NVL相當，但在能效上具有超過3倍的優(yōu)勢。

Cerebras和Furiosa沒參賽，但發(fā)了新芯片

AI芯片初創(chuàng)Cerebras的理念非常簡單粗暴——把芯片做大到硅晶圓所能承載的極限，進而避免芯片之間的互連，并大幅提高設(shè)備的內(nèi)存帶寬。

雖然這次沒有提交MLPerf測試，但Cerebras表示，自家平臺在每秒token的生成上，要比H100快7倍、比Groq快2倍。

對此，首席執(zhí)行官兼聯(lián)合創(chuàng)始人Andrew Feldman表示：「今天我們處于生成式AI的撥號時代，這是因為存在內(nèi)存帶寬瓶頸。無論是H100。還是MI 300或TPU，它們都使用相同的片外內(nèi)存，并產(chǎn)生相同的限制。我們突破了這一點，因為我們是晶圓級的。」

另一家初創(chuàng)Furiosa則發(fā)布了基于張量收縮處理器（TCP）架構(gòu)的第二代芯片RNGD（讀作renegade）。

AI工作負載中的基本操作是矩陣乘法，通常作為硬件中的原語實現(xiàn)。然而，矩陣（一般稱為張量）的大小和形狀會有很大的差異。而RNGD則將這種更廣義的矩陣——張量乘法作為原語來實現(xiàn)。

根據(jù)內(nèi)部的測試，F(xiàn)uriosa在性能上與英偉達L40S芯片相當，且功耗僅為185瓦，相比之下，L40S則高達320瓦。

與此同時，IBM也發(fā)布了他們的Spyre芯片，用于企業(yè)生成式AI工作負載，預(yù)計將在2025年第一季度上市。

可以說，AI推理芯片的競爭是越來越激烈了。如此看來，這個市場在短時間內(nèi)絕對會非常精彩。

責任編輯：張燕妮來源：新智元

數(shù)據(jù)AI

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看