英偉達(dá)開源多模態(tài)視覺語言模型-Nemotron Nano V2 VL模型架構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù) 原創(chuàng)
英偉達(dá)的技術(shù)報告一般細(xì)節(jié)都比較多,本次開源的12B的參數(shù)模型-Nemotron Nano V2 VL專為文檔理解、長視頻理解及推理任務(wù)而設(shè)計(jì)。下面來快速過一下。
模型架構(gòu)

遵循“視覺編碼器+MLP投射器+語言模型”架構(gòu)。
- 視覺編碼器:基于RADIOv2.5的c-RADIOv2VLM-H版本初始化,負(fù)責(zé)提取圖像/視頻的視覺特征。
- MLP投射器:作為跨模態(tài)橋梁,實(shí)現(xiàn)視覺特征與文本特征的對齊。
- 語言模型:基于Nemotron-Nano-12B-V2(混合Mamba-Transformer架構(gòu)),提供強(qiáng)文本推理能力,支持最長311296 tokens的上下文長度。
圖像視頻輸入處理策略上:

與英偉達(dá)之前的一個模型(《???【多模態(tài)&LLM】英偉達(dá)NVLM多模態(tài)大模型細(xì)節(jié)和數(shù)據(jù)集???》)相似,采用動態(tài)分辨率分塊(tiling)策略,按長寬比 resize 后分割為512×512非重疊塊,通過像素洗牌下采樣將每個塊的視覺token從1024縮減至256,最多支持12個塊,同時保留單塊縮略圖捕捉全局信息。
- 視頻處理:每秒提取2幀,最長視頻限制128幀(超過64秒則均勻采樣),每幀按單塊處理,結(jié)合高效視頻采樣優(yōu)化推理效率。
數(shù)據(jù)集


很有開源精神,Nemotron VLM Dataset V2(涵蓋圖像描述、VQA、OCR、文檔提取等多任務(wù))大部分已公開。
數(shù)據(jù)增強(qiáng)手段
- 對無明確標(biāo)注的數(shù)據(jù)集,用Qwen2.5/Qwen3系列模型從OCR結(jié)果或描述中生成問答對。
- 補(bǔ)充推理軌跡:融合人類標(biāo)注和模型生成(Qwen2.5-VL-32B、GLM-4.5V等)的推理軌跡,強(qiáng)化復(fù)雜任務(wù)推理能力。
- 多語言擴(kuò)展:包含 Wikimedia 多語言語料和翻譯后的文檔數(shù)據(jù),支持跨語言 multimodal 任務(wù)。
訓(xùn)練方法
采用“多階段遞進(jìn)優(yōu)化”策略,在保留文本推理能力的同時,逐步提升視覺理解和長上下文處理能力。訓(xùn)練一覽表如下:
階段 | 目標(biāo) | 上下文長度 | 訓(xùn)練數(shù)據(jù)量 | 操作 |
Stage 0 | 跨模態(tài)對齊預(yù)熱 | 16K | 220萬樣本(360億token) | 凍結(jié)視覺編碼器和語言模型,僅訓(xùn)練MLP投射器 |
Stage 1 | 基礎(chǔ)多模態(tài)能力構(gòu)建 | 16K | 3250萬樣本(1125億token) | 解凍全量參數(shù),融合文本推理數(shù)據(jù)和多模態(tài)數(shù)據(jù) |
Stage 2 | 視頻/長上下文擴(kuò)展 | 49K | 1100萬樣本(550億token) | 加入視頻和多頁文檔數(shù)據(jù),擴(kuò)展上下文長度 |
Stage 3 | 代碼推理能力恢復(fù) | 49K | 100萬樣本(150億token) | 僅用代碼推理數(shù)據(jù)訓(xùn)練,修復(fù)前階段文本能力退化 |
Stage 4 | 超長上下文優(yōu)化 | 311K | 7.4萬樣本(120億token) | 融入長上下文數(shù)據(jù),適配超長文本/視頻任務(wù) |
參考文獻(xiàn):NVIDIA Nemotron Nano V2 VL,https://arxiv.org/pdf/2511.03929v2
?
本文轉(zhuǎn)載自??大模型自然語言處理??? 作者:老余

















