最大限度地“壓榨”GPU性能
加速人工智能項目的默認方法是增加GPU集群的大小。然而,在GPU日益短缺的情況下,成本越來越高。許多人工智能公司“將其籌集的總資本的80%以上用于計算資源”,這無可厚非。GPU是人工智能基礎設施的基石,應該為其分配盡可能多的預算。然而,在這些高昂的成本中,還有其他提高GPU性能的方法應該考慮,而且越來越必要。

擴展GPU集群遠非易事,尤其是在生成式人工智能暴力擴張導致GPU短缺的情況下。NVIDIA A100 GPU是首批受到影響的GPU之一,而且它們現在非常稀缺,一些版本的交付周期長達一年。這些供應鏈挑戰迫使許多人考慮將更高端的H100作為替代品,但很明顯會付出更高的價格。對于那些投資于自己的基礎設施,為其行業創造下一個偉大的生成式人工智能解決方案的創業者來說,需要從現有GPU中榨取每一滴效率。
讓我們來看看企業如何通過提議修改網絡和存儲的人工智能基礎設施設計,從其計算投資中獲得更多。
數據問題
一個有用的方法是考慮現有計算基礎設施的低效率,以及如何緩解這些資源的最佳利用率。最大限度地提高GPU利用率是一個挑戰,因為數據傳輸速度往往太慢,無法讓GPU保持忙碌。一些用戶的GPU利用率低至20%,這顯然是不可接受的。這是人工智能團隊開始尋找最大化利用人工智能投資的好地方。
GPU是人工智能的引擎。正如汽車發動機需要汽油才能運行一樣,GPU也依靠數據運行。限制數據流會限制GPU性能。如果GPU的工作效率只有50%,那么人工智能團隊的生產力就會降低,一個項目需要兩倍的時間才能完成,投資回報率也會減半。基礎設施設計必須確保GPU能夠以最高效率運行,并提供預期的計算性能。
值得注意的是,DGX A100和H100服務器都具有高達30 TB的內部存儲容量。然而,考慮到平均模型大小約為150 TB,這種容量對于絕大多數深度學習模型來說是不可行的。因此,需要額外的外部數據存儲器來保持GPU提供數據。
存儲性能
AI存儲由服務器、NVMe SSD和存儲軟件組成,通常封裝在一個簡單的設備中。正如GPU被優化為與數十萬個內核并行處理大量數據一樣,存儲也需要高性能。人工智能中存儲的基本要求是——存儲整個數據集——能夠以線速(網絡允許的最快速度)將數據傳輸到GPU,以使GPU飽和并保持其高效運行。任何不足都是對這種非常昂貴和有價值的GPU資源的利用不足。
以能夠跟上全速運行的10或15臺GPU服務器集群的速度交付數據,將有助于優化GPU資源,并在整個環境中提高性能,盡可能充分利用預算,從整個基礎設施中獲得最大收益。
事實上,挑戰在于,沒有針對AI進行優化的存儲供應商需要許多客戶端計算節點來從存儲中提取全部性能。如果從一個GPU服務器開始,則反過來需要許多存儲節點才能達到該性能才能為單個GPU服務器供應。
不要相信所有的基準結果;當同時使用多個GPU服務器時,很容易獲得較大的帶寬,但AI受益于存儲,無論何時需要,它都會將所有性能提供給單個GPU節點。堅持使用能夠提供所需超高性能的存儲,但它可以在單個存儲節點中實現這一點,并且能夠將此性能提供給單個GPU節點。這可能會縮小市場范圍,但在開始人工智能項目之旅時,它是優先事項之一。
網絡帶寬
越來越強大的計算能力推動了對其他人工智能基礎設施的需求不斷增加。帶寬要求已經達到了新的高度,能夠管理每秒從存儲設備通過網絡發送并由GPU處理的大量數據。存儲設備中的網絡適配器(NIC)連接到網絡中的交換機,這些交換機連接到GPU服務器內部的適配器。NIC可以在正確配置的情況下將存儲直接連接到1或2個GPU服務器中的NIC,不會出現瓶頸,確保帶寬足夠高,可以將最大數據負載從存儲傳遞到GPU,使其在持續的時間內保持飽和,這是關鍵,在許多情況下,未能做到這一點是我們看到GPU利用率較低的原因。
GPU編排
一旦基礎設施到位,GPU編排和分配工具將極大地幫助團隊更高效地匯集和分配資源,了解GPU的使用情況,提供更高級別的資源控制,減少瓶頸并提高利用率。只有在底層基礎設施允許數據首先正確流動的情況下,這些工具才能按預期完成所有這些工作。
在人工智能中,數據是輸入,因此用于企業關鍵任務應用程序(如庫存控制數據庫服務器、電子郵件服務器、備份服務器)的傳統企業閃存的許多偉大功能與人工智能根本不相關。這些解決方案是使用傳統協議構建的,雖然它們已被重新用于人工智能,這些傳統基礎顯然限制了它們在GPU和AI工作負載方面的性能,推高了價格,并將資金浪費在過于昂貴和不必要的功能上。
在當前全球GPU短缺的情況下,再加上人工智能行業的蓬勃發展,找到最大限度提高GPU性能的方法變得前所未有的重要——尤其是在短期內。隨著深度學習項目的蓬勃發展,這些是降低成本和提高產出的幾個關鍵方法。

























