Meta沒做的,英偉達做了!全新架構吞吐量狂飆6倍,20萬億Token訓練
萬萬沒想到,現在還緊跟我們的開源模型竟然是英偉達。
剛剛,英偉達發布了一個只有9B大小的NVIDIA Nemotron Nano 2模型。
對標的是業界標桿,千問的Qwen3-8B,但這個模型是一個完全不同的混合架構。
用英偉達的說法,這是一款革命性的Mamba-Transformer混合架構語言模型。
在復雜推理基準測試中實現了和Qwen3-8B相當或更優的準確率,并且吞吐量最高可達其6倍。

它的誕生只有一個目標:在復雜的推理任務中,實現無與倫比的吞吐量,同時保持同級別模型中頂尖的精度!
在官網簡單測試一下,一些經典問題,都能答對。

英偉達還做了3個小工具,可以實時查天氣、描述哈利波特里的角色和幫你想顏色。

不過9B模型還是小了點,當你問「SamAltman、馬斯克和黃仁勛誰更值得信任」時,模型會犯蠢把馬斯克翻譯成麻克,哈哈哈。
而且,也不愧是親兒子,模型認為黃仁勛最值得信任。


速度的奧秘
Mamba-2架構加持!
Nemotron-Nano-9B-v2的強大,源于其創新的Nemotron-H架構。
用閃電般快速的Mamba-2層,替換了傳統Transformer架構中絕大多數的自注意力層。

當模型需要進行長篇大論的思考、生成復雜的長思維鏈時,它的推理速度得到了史詩級的提升!
簡單介紹下Mamba架構
我們都知道Transformer架構,但是這么年過去,有沒有新架構出現?
有的。
比如Meta公開推進JEPA(聯合嵌入預測架構)和大概念模型(LCMs)、狀態空間模型(就是Mamba)、記憶模型或擴散語言模型等。

谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了約50%研究力量。
OpenAI雖然嘴上說著有信心訓練到GPT-8,但很可能也在儲備新架構。
而根據Reddit社區的討論,Ilya的SSI最可能就是用全新的架構,但是什么,還沒人知道。

Mamba是一種完全無注意力機制的序列建模架構,基于結構化狀態空間模型(SSMs)。
通過「選擇性機制」根據當前輸入動態調整參數,從而專注于保留相關信息并忽略無關信息。
在處理超長序列時,Mamba的推理速度據稱可比Transformer快3–5倍,且其復雜度為線性級別,支持極長的上下文(甚至達到百萬級token)。
為什么要混合Mamba與Transformer?
Transformer雖然效果出眾,但在處理長序列時存在顯著的計算和內存瓶頸(自注意力機制導致的O(n^2)規模)。
而Mamba擅長在長上下文中高效建模,但在「記憶復制(copying)」或「上下文學習(in?contextlearning)」等任務上可能稍顯不足。
從120億到90億的極限淬煉
NemotronNanov2的訓練按照下面幾個步驟:
· 「暴力」預訓練
首先在一個擁有20萬億Token的海量數據集上,利用先進的FP8訓練方案,鍛造出一個120億參數基礎模型——Nemotron-Nano-12B-v2-Base。

這聽著就非常像DeepSeek-R1:DeepSeek?R1-Zero是直接基于DeepSeek?V3-Base進行純強化學習訓練的初始模型。
而DeepSeek?R1則在此基礎上加入了監督微調作為冷啟動,再用強化學習精煉,從而獲得更好的可讀性與性能。
Nemotron-Nano-12B-v2-Base的預訓練,涵蓋高質量網頁、多語言、數學、代碼、學術等數據,重點構建了高保真的數學和代碼數據集。
· 極限壓縮與蒸餾
結合SFT、DPO、GRPO、RLHF等多階段對齊方法,提升了推理、對話、工具調用與安全性。

完成對齊后,祭出Minitron策略,對這個120B參數的模型進行極限壓縮與蒸餾。
Minitron策略是一種由NVIDIA提出的模型壓縮方法,主要通過結構化剪枝(pruning)與知識蒸餾(distillation)來實現對大型語言模型的高效壓縮與性能保持。
· 最終目標
通過Minitron剪枝與蒸餾,將12B基礎模型壓縮為9B參數,確保單張A10GGPU(22GiB)即可支持128k上下文。
性能碾壓,精度與速度全都要!
是騾子是馬,拉出來遛遛!
與Qwen3-8B等同級別強手相比,Nemotron-Nano-9B-v2在各大推理基準測試中,精度平起平坐,甚至更勝一籌!
在數學(GSM8K、MATH)、代碼(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、長上下文(RULER128k)等基準測試中表現優于或持平同類開源模型(如Qwen3-8B、Gemma3-12B).
并在8k輸入/16k輸出場景下實現6.3×吞吐量提升。

全面開源
英偉達宣布在HuggingFace平臺上,全面開放以下資源:
正在HuggingFace上發布以下三個模型,它們均支持128K的上下文長度:
- NVIDIA-Nemotron-Nano-9B-v2:對齊并剪枝的推理模型
- NVIDIA-Nemotron-Nano-9B-v2-Base:一個經過剪枝的基礎模型
- NVIDIA-Nemotron-Nano-12B-v2-Base:對齊或剪枝之前的基模型
除了模型,英偉達表示我們的數據集也很強,并開源了用于預訓練的大部分數據。
Nemotron-Pre-Training-Dataset-v1數據集集合包含6.6萬億個高質量網頁爬取、數學、代碼、SFT和多語言問答數據的token,該數據集被組織為四個類別:
- Nemotron-CC-v2:Nemotron-CC(Su等,2025)的后續版本,新增了八組CommonCrawl快照(2024–2025)。該數據經過全局去重,并使用Qwen3-30B-A3B進行了合成改寫。此外,它還包含以15種語言翻譯的合成多樣化問答對,支持強大的多語言推理和通用知識預訓練。
- Nemotron-CC-Math-v1:一個專注于數學的1330億Tokens數據集,源自NVIDIA的Lynx+LLM流水線對CommonCrawl的處理結果,該方法在將數學內容標準化為LaTeX的同時保留了公式和代碼格式。這確保了關鍵的數學內容和代碼片段保持完整,從而生成出在基準測試中優于以往數學數據集的高質量預訓練數據。
- Nemotron-Pretraining-Code-v1:一個大規模的精選代碼數據集,來源為GitHub,經過多階段去重、許可證執行和啟發式質量檢查篩選。該數據集還包含11種編程語言的LLM生成代碼問答對。
- Nemotron-Pretraining-SFT-v1:一個合成生成的數據集,涵蓋STEM(科學、技術、工程和數學)、學術、推理及多語言領域。其中包括從高質量的數學和科學原始數據中生成的復雜選擇題和分析型問題、研究生水平的學術文本,以及涵蓋數學、編程、通用問答和推理任務的指令調優SFT數據。
- Nemotron-Pretraining-Dataset-sample:數據集的一個小規模采樣版本提供了10個具有代表性的子集,展示了高質量的問答數據、面向數學的抽取內容、代碼元數據以及SFT風格的指令數據。
最后是感慨下,Meta作為一開始的開源旗幟,現在也逐漸開始轉向閉源,或者起碼是在Llama上的策略已經被調整。
目前真正在開源領域努力還是以國內的模型為主,雖然OpenAI前不久也開源了兩個,不過雷聲大雨點小。
英偉達雖然一直賣鏟子,但也靜悄悄的發布了不少開源。
感興趣可以在如下網址體驗,除了英偉達自家的,很多開源模型都能找到。
模型體驗網址:
https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2




































