小米羅福莉新模型突襲炸場(chǎng)！性能媲美Deepseek-v3.2，成本壓榨到極致！羅福莉：中國(guó)開(kāi)源模型與頂尖閉源差距只有數(shù)月

原創(chuàng) 精選

作者：聽(tīng)雨 2025-12-17 11:47:14

人工智能

在今日上午的小米“人車(chē)家全生態(tài)”合作伙伴大會(huì)上，Xiaomi MiMo大模型負(fù)責(zé)人羅福莉也首秀并介紹了這款最新發(fā)布的大模型。

編輯｜聽(tīng)雨

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

中國(guó)開(kāi)源模型再次迎來(lái)一位重磅選手：就在剛剛，小米正式發(fā)布并開(kāi)源新模型 MiMo-V2-Flash。

在今日上午的小米“人車(chē)家全生態(tài)”合作伙伴大會(huì)上，Xiaomi MiMo大模型負(fù)責(zé)人羅福莉也首秀并介紹了這款最新發(fā)布的大模型。

圖片

MiMo-V2-Flash 采用專(zhuān)家混合架構(gòu) (MoE)，總參數(shù) 3090 億，活躍參數(shù) 150 億，主打高速推理與智能體工作流，性能媲美 DeepSeek-V3.2、Kimi-K2-Thinking 等頭部開(kāi)源模型。

圖片

最炸裂的是MiMo-V2-Flash的推理速度，達(dá)到了 150 tokens/秒，成本壓到了每百萬(wàn) token 輸入 0.1 美元、輸出 0.3 美元，主打一個(gè)超絕性?xún)r(jià)比。

圖片

MiMo-V2-Flash專(zhuān)為推理、編碼和智能體場(chǎng)景構(gòu)建，各式各樣的網(wǎng)頁(yè)開(kāi)發(fā)也不在話(huà)下，比如一個(gè)炫酷的豪華圣誕樹(shù)3D交互網(wǎng)頁(yè)：

圖片

此外，MiMo-V2-Flash 采用 MIT 開(kāi)源協(xié)議，基礎(chǔ)版權(quán)重及技術(shù)報(bào)告均已開(kāi)源。

躋身開(kāi)源模型前兩名，編程能力逼近GPT-5-High

先來(lái)看看跑分情況，MiMo-V2-Flash 在多項(xiàng)主流基準(zhǔn)測(cè)試中表現(xiàn)突出，媲美K2-Thinking和DeepSeek-V3.2。

圖片

在 AIME 2025 數(shù)學(xué)競(jìng)賽 和 GPQA-Diamond 科學(xué)知識(shí)測(cè)試這類(lèi)高難度任務(wù)中，它都穩(wěn)穩(wěn)排進(jìn)開(kāi)源模型前兩名，推理能力已經(jīng)站到第一梯隊(duì)。

圖片

它的編程成績(jī)也讓人眼前一亮。在被公認(rèn)為“最接近真實(shí)世界開(kāi)發(fā)”的 SWE-bench Verified 測(cè)試中，MiMo-V2-Flash 拿下 73.4% 的通過(guò)率，直接刷新開(kāi)源模型紀(jì)錄，整體表現(xiàn)已經(jīng)逼近 GPT-5-High。要知道，這個(gè)測(cè)試不是寫(xiě)小腳本，而是讓模型去修真實(shí)項(xiàng)目里的 bug。73.4% 的成功率，意味著它已經(jīng)能解決絕大多數(shù)實(shí)際編程問(wèn)題。

放到多語(yǔ)言場(chǎng)景，MiMo-V2-Flash 同樣不虛。在 SWE-Bench Multilingual 中，它的解題成功率達(dá)到 71.7%，說(shuō)明不管是 Python、Java 還是其他語(yǔ)言，都具備穩(wěn)定的工程能力。

再看智能體任務(wù)，這也是它的重點(diǎn)優(yōu)勢(shì)之一。

在 τ2-Bench 中，MiMo-V2-Flash 在通信、零售、航空三類(lèi)任務(wù)里分別拿到 95.3、79.5 和 66.0 的高分；在 BrowseComp 搜索代理測(cè)試中，基礎(chǔ)得分為 45.4，開(kāi)啟上下文管理的情況下，成績(jī)直接躍升到 58.3。這說(shuō)明它不僅能“回答問(wèn)題”，還能在多輪交互中持續(xù)理解目標(biāo)、做決策、完成任務(wù)。

此外，它的寫(xiě)作和表達(dá)質(zhì)量也接近頂級(jí)閉源模型水準(zhǔn)。這是MiMO-V2-Flash即興創(chuàng)作的小說(shuō)，看起來(lái)筆觸還是相當(dāng)細(xì)膩的：

圖片

三項(xiàng)黑科技：SWA、輕量級(jí)MTP和后訓(xùn)練MOPD

MiMo-V2-Flash 能做到推理性能的極致性?xún)r(jià)比，其核心來(lái)自一系列專(zhuān)門(mén)為高吞吐推理設(shè)計(jì)的架構(gòu)創(chuàng)新。

混合滑動(dòng)窗口注意力機(jī)制

MiMo-V2-Flash 采用了一種 1:5 的混合注意力設(shè)計(jì)：少量全局注意力，搭配大量 滑動(dòng)窗口注意力（Sliding Window Attention，SWA）。大量實(shí)驗(yàn)結(jié)果表明，SWA 結(jié)構(gòu)簡(jiǎn)單、效率高、易落地，在通用任務(wù)、長(zhǎng)上下文處理以及復(fù)雜推理任務(wù)上，整體表現(xiàn)都優(yōu)于線性注意力。

圖片

更重要的是，SWA 使用固定大小的 KV Cache，這意味著它可以非常順滑地接入現(xiàn)有的訓(xùn)練和推理基礎(chǔ)設(shè)施，不需要大規(guī)模重構(gòu)工程體系。

羅福莉還指出：窗口大小 128 是關(guān)鍵數(shù)值。實(shí)驗(yàn)證明，盲目擴(kuò)大窗口（如增至 512）反而會(huì)導(dǎo)致性能下降。同時(shí)她強(qiáng)調(diào)，在實(shí)施該機(jī)制時(shí)，sink values 是維持性能的關(guān)鍵，絕不可省略。

圖片

輕量級(jí)多 Token 預(yù)測(cè) (MTP)

傳統(tǒng)大模型解碼，本質(zhì)上是一個(gè)強(qiáng)內(nèi)存受限的過(guò)程：算力并沒(méi)有完全吃滿(mǎn)，瓶頸往往卡在 KV Cache 的讀寫(xiě)上。

而MTP讓模型一次性預(yù)測(cè)多個(gè)候選 token、，然后由主模型并行驗(yàn)證這些 token 是否可接受。這樣一來(lái)，F(xiàn)FN 和 Attention 的算術(shù)強(qiáng)度都被同時(shí)拉高，卻不增加 KV Cache 的 I/O 壓力，真正實(shí)現(xiàn)了 token 級(jí)并行。

在 MiMo-V2-Flash 中，MTP 不是外掛模塊，而是原生能力，直接作為自推測(cè)解碼的草稿模型使用，帶來(lái)了實(shí)打?qū)嵉牟渴鸺?jí)加速效果。

為了避免 MTP 本身變成新的性能瓶頸，MiMo-V2-Flash 對(duì) MTP 模塊做了非常克制的設(shè)計(jì)：

使用 Dense FFN（而非 MoE），控制參數(shù)規(guī)模
使用 SWA 而非 GA，進(jìn)一步降低 KV Cache 和注意力計(jì)算成本
模塊整體保持輕量，但不犧牲預(yù)測(cè)質(zhì)量

圖片

結(jié)果也很漂亮。據(jù)羅福莉介紹，在三層 MTP 設(shè)置下，他們觀察到平均接受長(zhǎng)度超過(guò) 3，編碼任務(wù)速度提升約 2.5 倍。它有效解決了小批量 On-Policy 強(qiáng)化學(xué)習(xí)中「長(zhǎng)尾樣本」帶來(lái)的 GPU 空閑時(shí)間浪費(fèi)問(wèn)題。

圖片

MOPD：一種全新的后訓(xùn)練范式

在后訓(xùn)練階段，小米還整了個(gè)新活：多教師在線策略蒸餾（MOPD）。

MOPD 的核心，是一種高效的 on-policy 學(xué)習(xí)機(jī)制。具體來(lái)說(shuō)，研究者先通過(guò) SFT / RL 訓(xùn)練出多個(gè)領(lǐng)域?qū)＜壹?jí)教師模型，隨后讓學(xué)生模型直接從自身策略分布中進(jìn)行采樣（rollout），并利用來(lái)自多個(gè)教師模型提供的、細(xì)粒度到 token 級(jí)別的密集獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化。

圖片

最驚人的是效率提升，MOPD 只需要傳統(tǒng)方法 1/50 的算力，就能讓學(xué)生模型達(dá)到教師性能峰值。這意味著小米能用更少的資源，更快地迭代模型。

羅福莉表示，這個(gè)方法借鑒于Thinking Machine，將多個(gè)強(qiáng)化學(xué)習(xí)模型進(jìn)行融合，結(jié)果帶來(lái)了驚人的效率提升。這為構(gòu)建一個(gè)自我強(qiáng)化循環(huán)系統(tǒng)奠定了基礎(chǔ)，學(xué)生模型可以逐步進(jìn)化，最終成為更強(qiáng)的教師模型。

圖片

屬于開(kāi)源模型的「小米時(shí)刻」，來(lái)了

在今天上午的小米“人車(chē)家全生態(tài)”合作伙伴大會(huì)上，羅福莉表示：

“2020年我剛進(jìn)入這行的時(shí)候，中國(guó)開(kāi)源模型和世界頂尖閉源模型的代際差距，我認(rèn)為還有3年；但到了今天，這個(gè)差距只有數(shù)月。”

這無(wú)疑是一句令人熱血沸騰的話(huà)，意味著中國(guó)開(kāi)源模型與頂尖閉源的差距在不斷縮小，且性?xún)r(jià)比在不斷提升。此次MiMo-V2-Flash的 150 tokens/秒的推理速度，每百萬(wàn) token 輸入 0.1 美元、輸出 0.3 美元的成本，也讓我們目睹了中國(guó)開(kāi)源模型能把性?xún)r(jià)比壓榨到多么極致的地步。

在最新的羅永浩播客中，MiniMax 創(chuàng)始人閆俊杰也公開(kāi)表示：現(xiàn)在中國(guó)開(kāi)源模型的研發(fā)成本只有世界頂尖模型的1/10，但性能差距僅不到5%。

小米的野心不止于“人車(chē)家”。羅福莉在社交媒體上披露了更多信息：MiMo-V2-Flash的發(fā)布只是小米AGI路線圖的第二步。這背后暗示了小米在AI賽道上全面發(fā)力的決心。

屬于開(kāi)源模型的「小米時(shí)刻」，要來(lái)了。

MiMo-V2-Flash模型：https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

技術(shù)報(bào)告：https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

AI Studio 體驗(yàn)地址：http://aistudio.xiaomimimo.com

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧