国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

從DeepSeek-V3到Kimi K2:八種現代 LLM 架構大比較

人工智能
自最初的 GPT 架構開發(fā)以來,已經過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會驚訝于這些模型在結構上仍然如此相似。

自最初的 GPT 架構開發(fā)以來,已經過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會驚訝于這些模型在結構上仍然如此相似。

當然,位置嵌入已經從絕對嵌入演進到旋轉嵌入(RoPE),多頭注意力機制已基本被分組查詢注意力機制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函數。但在這些細微的改進背后,我們是否真正看到了突破性的變化,還是僅僅在打磨相同的架構基礎?

LLM架構子集:DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3和Kimi 2

圖片圖片

一、DeepSeek V3/R1

DeepSeek V3 中引入的兩種關鍵架構技術,這些技術提高了其計算效率,并使其有別于許多其他 LLM:多頭潛在注意力(MLA)、混合專家(MoE):

1.1 多頭潛在注意力(MLA)

MLA旨在解決傳統多頭注意力(MHA)在大規(guī)模模型中內存占用過高的問題。與分組查詢注意力(GQA)相比,MLA通過壓縮鍵和值張量來進一步減少內存使用。

MHA 與 GQA 的比較。此處,組大小為 2,其中兩個查詢共享一個鍵值對。

圖片圖片

在MLA中,鍵和值張量在存儲到KV緩存之前會被壓縮到一個低維空間。在推理時,這些壓縮的張量會被重新投影回原始大小。這種設計雖然增加了額外的矩陣乘法操作,但顯著降低了內存占用。

MLA(用于 DeepSeek V3 和 R1)與常規(guī) MHA 的比較。

圖片圖片

1.2 混合專家(MoE)

MoE將傳統的前饋模塊替換為多個專家層,每個專家層也是一個前饋模塊。在推理時,一個路由器會選擇一小部分專家進行激活。例如,DeepSeek V3有256個專家,但每次推理僅激活9個專家(1個共享專家和8個由路由器選擇的專家)。

V3/R1 中的混合專家 (MoE) 模塊(右)與具有標準前饋塊的 LLM(左)的比較圖。

圖片圖片

2. OLMo 2

2.1 歸一化層放置

OLMo 2采用后歸一化(Post-Norm)策略,與大多數LLM采用的前歸一化(Pre-Norm)不同。這種設計旨在提高訓練穩(wěn)定性。

在OLMo 2中,歸一化層被放置在注意力模塊和前饋模塊之后,而不是之前。這種設計與原始Transformer架構中的Post-LN類似,但使用了RMSNorm而非LayerNorm。

Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對比圖。

圖片圖片

研究表明,后歸一化有助于訓練穩(wěn)定性,尤其是在不使用精心設計的學習率預熱策略時。OLMo 2的訓練損失曲線表明,這種設計在訓練過程中表現更為穩(wěn)定。

Pre-Norm(如GPT-2、Llama 3和許多其他模型中使用的)與OLMo 2的Post-Norm變體的訓練穩(wěn)定性對比圖。

圖片圖片

2.2 QK-Norm

QK-Norm是在多頭注意力模塊中引入的額外RMSNorm層,應用于查詢(q)和鍵(k)之前。這種設計有助于在應用RoPE之前對輸入進行歸一化,從而減少訓練過程中的數值不穩(wěn)定。

圖片圖片

OLMo 2 和 Llama 3;可以看出,除了 OLMo 2 仍然使用傳統的 MHA 而非 GQA 之外,它們的架構在其他方面相對相似。

Llama 3 和 OLMo 2 的架構比較。

圖片圖片

3. Gemma 3

3.1 滑動窗口注意力

滑動窗口注意力旨在減少KV緩存的內存需求,同時保持模型的性能。這種設計特別適用于需要處理長序列的任務。

通過滑動窗口注意力實現的KV緩存內存節(jié)省。

圖片圖片

滑動窗口注意力限制了每個查詢位置的上下文范圍,使其僅關注局部窗口內的內容。與傳統的全局注意力機制相比,這種設計顯著減少了KV緩存的內存占用。例如,Gemma 3將滑動窗口大小從Gemma 2的4096減少到1024,并調整了全局與局部注意力的比例。

常規(guī)注意力(左)和滑動窗口注意力(右)的對比圖。

圖片圖片

研究表明,滑動窗口注意力對模型的建模性能影響極小,但在內存使用上帶來了顯著的優(yōu)化。這種設計使得Gemma 3在處理長序列時更加高效。

常規(guī)注意力(左)和滑動窗口注意力(右)的對比圖。

圖片圖片

3.2 歸一化層放置

Gemma 3在注意力模塊和前饋模塊前后都放置了RMSNorm層。這種設計結合了前歸一化和后歸一化的優(yōu)點,既保持了訓練穩(wěn)定性,又提高了推理效率。

OLMo 2和Gemma 3的架構對比圖;注意Gemma 3中額外的歸一化層。

圖片圖片

4. Mistral Small 3.1

Mistral Small 3.1通過自定義分詞器、縮小KV緩存和減少層數來優(yōu)化模型。此外,它放棄了滑動窗口注意力,轉而使用更高效的FlashAttention技術。

這些優(yōu)化使得Mistral Small 3.1在推理延遲上優(yōu)于Gemma 3,同時保持了較高的性能。這種設計特別適合需要快速推理的應用場景。

OLMo 2和Gemma 3的架構對比圖;注意Gemma 3中額外的歸一化層。

圖片圖片

5. Llama 4

Llama 4采用了與DeepSeek V3類似的架構,但在某些細節(jié)上進行了優(yōu)化,以提高模型的性能和效率。

深度求索V3(6710億參數)和Llama 4 Maverick(4000億參數)的架構對比圖。

圖片圖片

Llama 4使用了分組查詢注意力(GQA)而非多頭潛在注意力(MLA),并且在MoE模塊中使用了更少但更大的專家。此外,Llama 4在每個Transformer塊中交替使用MoE模塊和密集模塊。

6. Qwen3

6.1 密集模型

Qwen3 0.6B和Llama 3 1B的架構對比圖

圖片圖片

Qwen3的密集模型采用了較深的架構(更多Transformer塊),具有更多的層,而 Llama 3 是一種更寬的架構,具有更多的注意力頭。Qwen3 的內存占用較小,但生成速度較慢。

6.2 MoE模型

DeepSeek-V3 和 Qwen3 235B-A22B 的架構比較。

圖片圖片

Qwen3的MoE模型采用了與DeepSeek V3類似的架構,但在某些細節(jié)上有所不同,例如不使用共享專家。這種設計使得模型在訓練時能夠學習更多知識,而在推理時保持高效。

7. SmolLM3

SmolLM3 架構看起來相當標準。不過,最有趣的一點或許是它使用了 NoPE(無位置嵌入)。

Qwen3 4B 和 SmolLM3 3B 的架構比較。

圖片圖片

7.1 無位置嵌入(NoPE)

NoPE不使用任何位置嵌入(絕對位置嵌入或旋轉位置嵌入),而是依賴因果注意力掩碼來保持序列的自回歸順序。這種設計使得模型在訓練過程中能夠學習到隱式的位置信息。

絕對位置嵌入示例

圖片圖片

研究表明,NoPE在長度泛化方面表現更好,即在處理更長序列時性能下降較少。這種設計使得SmolLM3在處理長序列任務時表現優(yōu)異。

圖片圖片

8. Kimi 2

Kimi 2采用了DeepSeek V3的架構,并進行了擴展。它使用了Muon優(yōu)化器而非AdamW,這可能是其訓練損失曲線表現優(yōu)異的原因之一。此外,Kimi 2在MoE模塊中使用了更多的專家,在MLA模塊中使用了更少的頭。

DeepSeek V3 和 Kimi K2 的架構比較。

圖片圖片

這些設計使得Kimi 2在訓練過程中表現優(yōu)異,訓練損失曲線平滑且下降迅速。這可能有助于該模型躍居上述基準測試的榜首

圖片 圖片

責任編輯:武曉燕 來源: 數據STUDIO
相關推薦

2025-07-31 01:00:00

LLM架構模型

2025-08-08 09:23:00

2025-02-19 10:49:30

2025-07-17 08:14:22

2025-03-26 10:38:40

2025-02-12 08:30:18

2025-03-28 04:30:00

2025-07-16 09:29:39

2025-05-21 14:01:22

AIDeepSeek-V硬件

2025-01-03 19:38:33

2025-07-22 11:38:38

2025-04-02 02:17:00

2025-01-03 09:27:14

2025-02-10 09:42:14

2025-11-10 16:57:11

Kimi k2ClaudeGPT

2025-08-07 09:05:00

2025-05-28 01:20:00

DeepSeek-V大模型AI

2025-03-26 09:16:05

AI模型訓練

2020-09-11 19:41:06

KubernetesK8SK3S

2025-11-19 09:23:44

點贊
收藏

51CTO技術棧公眾號

亚洲伊人婷婷| 欧美日韩另类国产亚洲欧美一级| 91麻豆精品国产91久久久久久久久| 欧美二区在线| 国产激情视频在线| 美女精品自拍一二三四| 久久99国产精品自在自在app | 国产欧美日韩电影| 99久久国产综合精品女不卡| 超碰91人人草人人干| 91在线电影| 日本中文字幕一区| 久久成人精品一区二区三区| 亚洲精品视频99| 国产精品一区二区三区乱码| 欧美激情第6页| 日本黄色片在线观看| 99re在线精品| 91传媒视频免费| 国产电影一区二区| 欧美视频你懂的| 日本三级免费观看| 欧美视频一区| 在线视频欧美日韩精品| 国产对白叫床清晰在线播放| 日本一二三不卡| 深夜福利成人| 婷婷亚洲最大| 国精产品一区一区三区有限在线| www.久久ai| 日韩欧美亚洲国产一区| 久久精品日产第一区二区三区| 久草.com| 国产大片一区二区| 国产精品久久久久久久一区探花| 在线观看小视频| 麻豆精品一区二区| 国产麻豆视频一区二区| 成人福利网站在线观看| 中中文字幕av在线| 成人av影院在线观看| 欧洲熟妇精品视频| 九一国产在线| 麻豆成人91精品二区三区| 精品视频9999| 7777kkkk成人观看| 亚洲人成网站色ww在线| 激情视频网址| 婷婷综合久久| 日韩在线视频网| 91色在线看| 精品久久综合| 最新亚洲精品| 久久久久国色av免费观看性色| av资源在线| 日韩国产精品一区| 精品成人av| 浅井舞香一区二区| 免费观看日韩av| 97在线观看免费观看高清 | 国产美女精品在线| 国产午夜伦鲁鲁| 日韩一区二区在线看| 日韩精品一卡| ckplayer中文字幕| 欧美日韩在线观看一区二区 | 在线精品播放av| 国产一区2区在线观看| 久久久久久久999精品视频| 91亚洲成人| 久久久久se| 国产高清久久久久| 色片在线免费观看| 色综合久久久网| 欧美美女色图| 91精品国产综合久久久蜜臀图片| 成本人h片动漫网站在线观看| 久久久噜噜噜久久中文字幕色伊伊| 国产精品亚洲综合天堂夜夜| 久久久久久久久久久妇女| 二区三区中文字幕| 在线观看国产一区| 欧美激情理论| 欧美激情精品久久久久久蜜臀| 91www在线| 国产精品久久久久久av福利| 日本肉肉一区| 欧美日韩ab片| 国产69精品久久app免费版| 日本在线不卡一区| 国产精品黄视频| 免费看黄色91| 男人午夜天堂| 欧美成人vps| 日韩午夜一区| 无码人妻丰满熟妇区五十路百度| 日韩一级黄色大片| 久久一区二区三区电影| 亚洲 高清 成人 动漫| 亚洲精品999| 91丨porny丨首页| free性欧美16hd| 欧洲亚洲一区| 在线播放一区二区三区| 中文字幕乱码亚洲无线精品一区| 国产精品无码专区av在线播放| 精品国产一区二区三区四区四 | 亚洲综合网狠久久| 国产精品一色哟哟| 日韩黄色高清视频| 日本欧美一区二区在线观看| 久久五月婷婷丁香社区| 国产激情视频在线观看| 国产精品看片资源| 91看片淫黄大片一级在线观看| 青草av在线| 欧美激情视频一区二区三区| 高跟丝袜一区二区三区| 99久久香蕉| 国产一区二区三区欧美| 粉嫩aⅴ一区二区三区四区五区| 四虎精品在线| 日韩视频免费看| 99久久亚洲一区二区三区青草 | 91麻豆精品国产自产在线观看一区 | 精品96久久久久久中文字幕无| 男人亚洲天堂网| 日韩精品欧美激情| 一区三区视频| 香蕉网站在线观看| 国产999精品| 成人欧美一区二区三区白人| 欧美美女被草| 日韩中文字幕亚洲精品欧美| 欧美成人精品1314www| 欧美日韩精品免费观看视频完整| 日韩男人天堂| 美女网站色91| 欧美先锋影音| 国产精品视频首页| 你懂的好爽在线观看| 久久久黄色av| 国产精品一卡二卡在线观看| 青草在线视频在线观看| 日本一区二区三区在线视频| 日韩精品一区二区三区swag| 亚洲影院在线| 直接在线观看的三级网址| 日本黑人久久| 精品视频久久久| 懂色一区二区三区免费观看| av成人在线播放| 国产v亚洲v天堂无码久久久| 久久露脸国产精品| 亚洲视频在线一区观看| 日韩免费一区| 最新av网站在线观看| 国产精品制服诱惑| 91精品国产一区二区三区香蕉| 精品91在线| rebdb初裸写真在线观看| 亚洲综合欧美日韩| 尤物九九久久国产精品的特点| 91啪亚洲精品| 高清精品xnxxcom| 国产青青视频| 91国产在线免费观看| 日韩一区二区三| 国产盗摄女厕一区二区三区| 亚洲1区在线| 欧美艹逼视频| 国产日本一区二区三区| 亚洲激情第一页| 久久久久久久久久久黄色| 另类在线视频| 精华区一区二区三区| 久精品国产欧美| 日韩久久午夜影院| 中文天堂在线一区| 欧美黄色一区| 九九九九免费视频| 国产成人激情视频| 日韩欧美一二三区| 久久人人爽人人爽| 欧美区亚洲区| 日日夜夜综合| 婷婷国产在线| 搞av.com| av蓝导航精品导航| 精品国产依人香蕉在线精品| 欧美日韩国产丝袜美女| 国产老妇另类xxxxx| 欧美三级三级| 欧美成人精品一区二区男人小说| 麻豆一区二区三区四区精品蜜桃| 久久久久欧美| 高清欧美性猛交xxxx黑人猛交| 正在播放亚洲一区| 亚洲三级在线免费| 国产原创一区二区三区|