国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

DeepSeek 到底用了多少 GPU 呢?

原創 精選
人工智能
DeepSeek 的 GPU 需求突出了有效的人工智能基礎設施規劃的必要性。通過使用智能工作負載分配、量化和動態 GPU 分配,業務可以顯著降低計算成本,同時保持高性能。

半導體研究機構SemiAnalysis認為,DeepSeek囤積了6萬張英偉達GPU卡,其中包括1萬張A100、1萬張H100、1萬張“特供版”H800、3萬張“特供版”H20。馬斯克認為DeepSeek實際使用的GPU數量可能接近5萬個Nvidia H100 GPU。但是,據論文顯示,DeepSeek-V3開源基礎模型的訓練在2048塊英偉達H800 GPU集群上完成。

什么是真實的?什么是在炒作呢?

架構的影響

DeepSeek的架構是一個開源的專家混合 (MoE) 語言模型,使用一個創新的 Transformer 體系結構設計,用于經濟的訓練和有效的推理,其核心可能是多頭潛在注意 (MLA) 和 DeepSeekMoE。

圖片圖片

多頭注意力 (MHA) 中的鍵值 (KV) 緩存是 LLM 推理的一個重要瓶頸。分組查詢注意力 (GQA) 和多查詢注意力 (MQA) 等方法試圖緩解這一問題,但往往會影響性能。MLA 通過利用低級關鍵值聯合壓縮來解決這個問題。實證結果表明,MLA 不僅優于傳統的 MHA,而且顯著降低了 KV 緩存,從而提高了推理效率。

MLA 的主要目標是通過將鍵和值壓縮成比原始表示尺寸小得多的潛在向量,從而減小 KV 緩存的大小。這些被壓縮的潛在 KV 向量存儲在 KV 緩存中,然后在生成階段 (通過上投影) 被解壓縮到原始維度,以便進行多頭注意力的計算。這種優化維護甚至可以增強模型的準確性,同時將緩存大小降低到與 GQA 所達到的大小相當的水平。事實上,這種緩存減少方法可以與 MQA (最積極的緩存減少方案) 相媲美,同時提供與傳統 MHA 相當甚至更高的模型精度。

DeepSeekMoE 引入了兩項關鍵創新,以最大限度地實現專家的專業性:

  • 細粒度專家細分:將專家細分為更細的粒度,以實現更高的專業化和更精確的知識獲取。
  • 共享專家隔離:隔離專門的專家以減少路由專家之間的知識冗余。

使用相同數量的激活參數和全部專家參數,DeepSeekMoE 的性能明顯優于 GShard 等傳統 MoE 架構。

另外. DeepSeek 還采用了多令牌預測 (MTP) 。MTP 沒有嚴格地逐個生成令牌,而是訓練模型一次處理多個令牌。這種方法提高了吞吐量,也是 DeepSeek-V3 比 DeepSeek-V2 快三倍生成文本的部分原因。

通過整合這些創新,DeepSeek提供了強大的性能、成本效益高的培訓、大量的 KV 緩存減少和高推理吞吐量。

DeepSeek 與其他大模型的對比

下面表格提供了一個 DeepSeek 比較其他領先的人工智能語言模型的簡要說明。它強調了 DeepSeek 與 ChatGPT、 Gemini、 Claude 和 Llama 之間的關鍵區別,側重于性能、效率和培訓成本等方面。

圖片圖片

簡單而言,

  • DeepSeek 正在通過成本效益高的培訓和具有競爭力的性能 / 資源比例,打動人工智能市場,在 DeepSeek 與 Openai ChatGPT 的對比中提供了一個令人信服的案例。
  • OpenAI (ChatGPT-4) 仍然占據主導地位,但 DeepSeek 的崛起引入了一個新的玩家,能夠以更低的成本提供類似的功能。DeepSeek VS ChatGPT 目前成為了一種趨勢。
  • 谷歌 Gemini 與搜索的整合使其在實時更新方面功能強大,而 DeepSeek 的多語言專注可能使其成為強大的替代品。
  • Anthropic Claude 優先考慮人工智能的安全性,將自己定位為一個值得信賴的模型,但它可能缺乏 DeepSeek 的可擴展性和適應性。
  • Meta 的Llama是開源的,允許定制,但它可能還沒有達到 DeepSeek 在多語言和結構化人工智能響應方面的表現。據報道,Meta建立了四個作戰室來調查深度搜索的發展趨勢。

就性能指標而言,

“DeepSeek” 無疑是一個戲劇性的入口,引發了一場關于人工智能未來的全球對話。它的創新方法和令人印象深刻的能力既令人興奮又令人關切,突出了技術進步與地緣政治考慮之間復雜的相互作用。

DeepSeek 的各模型對比:V3,R1 和R1-Zero

DeepSeek R1 專為高級推理任務設計,利用強化學習技術提高其性能,在復雜的推理任務中脫穎而出。這個模型在需要邏輯推理和問題解決的場景中特別有效。

圖片圖片

相比之下,DeepSeek V3 是為自然語言處理任務的多功能性而構建的,側重于使用混合專家體系結構的可伸縮自然語言處理,使其能夠有效地處理各種應用程序。考慮一個場景,其中 DeepSeek-V3 的任務是根據用戶提示詞生成文本。該模型對輸入進行評估,僅激活與提示的具體上下文最相關的專家,從而優化其處理能力。例如,如果提示此與技術編碼有關,那么專門研究編程語言的專家將被激活,而其他專家子系統將保持休眠狀態,從而節省計算資源。

圖片圖片

最后,DeepSeek R1-Zero 代表了一種創新的方法,它只通過強化學習進行培訓,而不需要事先監督微調。這個模型已經顯示出有前途的推理能力,但可能需要與可讀性和連貫性做斗爭。

圖片圖片

雖然它只保留了在推理過程中激活 370 億個參數的效率,但它強調了在不同任務之間的泛化,而不需要大量的微調或特定于任務的訓練數據。在推理和數學相關任務方面,DeepSeek r 1 始終優于 DeepSeek r 1-zero,更適合需要精確計算和邏輯推理的應用。

回到本文開始提出的問題,那么DeepSeek 模型訓練真正的成本是什么?使用了多少GPU呢? 

成本的計算分析

根據可用數據,我們可以計算分析,得到可能的結果。

首先,我們假設使用了50000個GPU,訓練了60天相當于1440個小時,則總的訓練時長=50000 X 1440 = 72000000 GPU小時。

再假設每個GPU小時的成本=3美元,那么訓練成本= 72000000 X 3 = 246000000 美元。一般地,其他附加成本約占訓練成本的10~20%,我們假設附加成本約占訓練成本的15%,則訓練的總成本為 246000000 x 115% = 248400000 美元,與傳說中的2.48億美元吻合。

我們知道如何訓練的總成本=總的GPU小時 x 單個GPU小時的成本,則總的GPU小時 =訓練的總成本/ 單個GPU小時的成本,如果訓練的總成本是500萬美元,單個GPU小時的成本的成本是3美元的話,則總的GPU小時= 5000000/3=1666667 GPU小時。

既然知道了訓練的總GPU小時數,就可以估算總的訓練時長了。

已知總的GPU小時 = GPU個數 X 小時為單位的訓練時長,則 小時為單位的訓練時長= 總的GPU小時 /GPU個數,如果使用了50000個GPU的話,所以總的訓練時長= 1666667 /50000 = 33.33 小時,約為1.39天。

如果使用了2000個GPU的話, 總的訓練時長= 1666667 /2000 = 833.33 小時,約為34.72天。

因此, 500 萬美元可能更貼近于真實,這只是訓練成本,即~35天內 2000 個 NVIDIA H800 GPU。2.48 億美元的估計則是基于 50000 個 GPU 60 天的訓練,這種設置可能只是一種謠傳。DeepSeek 擁有它們,但該項目只使用了 2000 個 GPU,實現了智能優化 。

以DeepSeek R1 為例, 有人推薦了如下的GPU配置:

圖片圖片

一旦經過了訓練,DeepSeek 大模型推理階段的硬件需求明顯降低,即使在功能較差的 GPU 上部署也是可行的。

  • 更少的 GPU 需求:推理可以在像 NVIDIA RTX 4090 (24 GB VRAM) 或企業級 A100 這樣的 GPU 上執行,而不是大規模集群。
  • 更低的 VRAM 使用:使用 4 位和 8 位量化,DeepSeek 降低了高達 75% 的 VRAM 消耗,允許高效的模型服務。
  • 能源節省:相比于訓練推理的能源消耗降低了超過 50% 能源消耗。
  • 實時處理:優化的執行管道允許低延遲推斷,這對于聊天機器人和自動化等 AI 驅動的應用程序至關重要。

問題是:“DeepSeek” 是一個轉瞬即逝的現象,還是一股將重塑人工智能世界的力量呢?

一句話小結

DeepSeek 的 GPU 需求突出了有效的人工智能基礎設施規劃的必要性。通過使用智能工作負載分配、量化和動態 GPU 分配,業務可以顯著降低計算成本,同時保持高性能。DeepSeek R1 顯示了大模型領域上的創新,一些的復現版本也證明了這一點。

ps. 需要注意的是,那些“精簡版”的R1 版本并不是模型的全部。完整模型為 671B 參數,每個實例需要 ~16 個 80GB GPU。而且,托管版本可能會使用用戶的數據進行訓練,所以在上傳敏感內容之前請仔細檢查。

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2009-08-18 09:19:12

Windows 7占用空間Windows 7體積

2009-09-07 09:10:24

Windows 7占用空間

2024-12-06 08:00:00

K8s

2024-11-06 08:49:46

2025-02-17 09:03:26

DeepSeekAI工具人工智能

2018-02-06 12:48:12

人工智能深度學習AI芯片

2024-05-30 07:37:30

2025-01-08 08:49:50

2024-01-16 12:42:00

2010-03-22 16:02:50

云計算

2013-11-06 15:01:51

Linux命令內存

2016-01-13 09:15:48

Java對象占空間

2022-09-06 07:29:33

微服務方式函數

2009-09-18 15:58:08

CCIE認證費用

2022-09-27 09:43:08

物聯網設備物聯網

2025-01-06 05:00:00

人工智能GPU深度學習

2025-02-20 14:52:02

2021-03-08 21:57:29

手機科技數碼

2019-02-25 08:00:00

Linux內存
點贊
收藏

51CTO技術棧公眾號

亚州av电影免费在线观看| 久久天天躁日日躁| 国产精品一区二区3区| 国产亚洲高清一区| 欧美国产综合一区二区| 国产精品美女午夜av| 男女视频在线| 久久久亚洲高清| 精品免费国产| 欧美韩国日本| 亚洲区一区二区三区| 精品一区二区三区视频| 亚洲成人综合在线| 欧美亚洲丝袜| 国产一区二区三区不卡av| 亚洲欧洲一级| 国产伦精品一区二区三区| 欧美深夜视频| 久久视频中文字幕| 成人在线视频www| 亚洲第一福利视频| 羞羞网www| 日韩欧美在线视频| 屁屁影院在线观看| 国产日韩三级| 99久久精品一区二区成人| 亚洲综合好骚| 日韩久久久久久久久久久久| 亚洲国产片色| 99电影网电视剧在线观看| 自由日本语亚洲人高潮| 3d动漫啪啪精品一区二区免费 | 欧美中文日韩| 欧美色欧美亚洲另类七区| 久久久噜噜噜久久狠狠50岁| 美女三级99| 精品写真视频在线观看 | 亚洲精品中文字| 国产黄色一区| 国内精品久久久久影院 日本资源| 日韩免费精品| 91精品国产91久久| 亚洲xxx拳头交| 久久综合婷婷综合| 成人黄色大片在线观看| 国产三区在线视频| 亚洲天堂2014| 日本中文字幕视频在线| 牛牛视频精品一区二区不卡| 精品国产一区二区三区小蝌蚪| 日韩免费观看网站| 欧美日韩一二| 欧美一区二区高清在线观看| 福利电影一区二区| 97视频免费| 在线成人av影院| 日韩一级特黄| 91久久精品一区二区别| 精品亚洲欧美一区| 人人做人人爽| 精品久久人人做人人爱| 91精品啪在线观看国产爱臀| 亚洲自拍偷拍色片视频| 国产大陆a不卡| 中文字幕不卡免费视频| 日韩精品在线观看一区| 亚洲精品亚洲人成在线| 欧美日韩电影一区二区| 99精品国产99久久久久久白柏| 女生裸体视频网站免费观看| 91福利在线看| 日韩漫画puputoon| 亚洲综合精品伊人久久| 国产精品亚洲一区二区三区在线| 波多野吉衣av| 精品999在线播放| 天海翼精品一区二区三区| 国产一区二区自拍| 国产欧美精品日韩区二区麻豆天美| 成人在线观看黄色| 九九视频这里只有精品| 一区二区福利| xxxxx中文字幕| 国产视频在线观看一区二区| 成人免费电影网址| 免费看的黄色大片| 欧美精品久久久久久久多人混战| 精品精品精品| 在线观看欧美一区| 偷拍日韩校园综合在线| 九九热线视频只有这里最精品| 91嫩草视频在线观看| 国产午夜亚洲精品午夜鲁丝片| 在线三级电影| 国产日韩在线看片| 91片在线免费观看| 天堂av在线电影| 国产色综合天天综合网| 久久久精品国产99久久精品芒果| 91在线超碰| 国产一区在线免费观看| 亚洲三级在线免费| 嫩呦国产一区二区三区av| 最新欧美日韩亚洲| 91精品国产美女浴室洗澡无遮挡| 日产午夜精品一线二线三线| 又色又爽又高潮免费视频国产| 精品国产三级电影在线观看| 亚洲欧美一级二级三级| 日本高清视频网站www| 欧美激情亚洲视频| 不卡的av在线播放| 韩日精品一区| 国产精品8888| 亚洲精品小视频| 天堂影院一区二区| 麻豆传媒视频在线观看免费| 97夜夜澡人人双人人人喊| 亚洲午夜精品17c| 欧美美女黄色| 91福利免费| 日韩69视频在线观看| 中文字幕一区二| 亚欧日韩另类中文欧美| 女女百合国产免费网站| 亚洲国产日韩欧美在线图片| 久久黄色影院| 色网在线观看| 亚洲成人午夜在线| 亚洲国产中文字幕在线观看| 水野朝阳av一区二区三区| 黄色网在线播放| 日本不卡一区| 337p日本欧洲亚洲大胆色噜噜| 日韩二区在线观看| 欧美男人天堂| 免费的一级黄色片| 中文字幕日韩在线观看| 大桥未久av一区二区三区中文| 日韩欧美精品一区二区三区| 亚洲视频欧美在线| 亚洲欧美精品伊人久久| 国产综合色在线| 国产精品迅雷| 久久久久久久久久久福利| 久久国产精品久久久久久| 中文字幕免费不卡在线| 国产在线观看91一区二区三区| 视频黄页在线| 91免费版黄色| 亚洲第一福利网站| 91在线国内视频| 日韩三区视频| 成人高清免费在线播放| 日韩一本精品| 日韩最新在线视频| 亚洲视频一区二区在线| 亚洲91精品| 欧美另类tv| 国产av天堂无码一区二区三区| 97激碰免费视频| 欧美性淫爽ww久久久久无| 日本中文字幕一区二区有限公司| 欧美xoxoxo| 波多野结衣在线中文| 岛国视频一区免费观看| 亚洲电影在线观看| 国产亚洲精品aa午夜观看| 91成人网在线观看| 中文av在线全新| 亚洲三级视频网站| 国产精品伊人日日| 中文字幕亚洲欧美在线| 亚洲欧美日韩电影| 亚洲欧美日本国产专区一区| 国产精品久久久久久妇女| av天在线播放| 视频一区二区精品| 91av网站在线播放| 欧美一区二区日韩| 欧美—级在线免费片| 一区二区三区国产盗摄| 国产精品xxx| 国产裸舞福利在线视频合集| 国产曰肥老太婆无遮挡| 国产免费观看久久黄| 亚洲欧美激情另类校园| 亚洲综合色在线| 国产激情一区二区三区| 久久久久久久久99精品大| 日韩精品一区二区三区av| 一二三四在线视频观看社区| 日本高清xxxx| 亚洲永久在线观看| 久久亚洲私人国产精品va| 91成人在线观看喷潮| 欧美激情综合五月色丁香小说| 久久国产精品99国产| 视频一区在线观看| 日韩专区视频网站|