編輯|聽(tīng)雨
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
中國(guó)開(kāi)源模型再次迎來(lái)一位重磅選手:就在剛剛,小米正式發(fā)布并開(kāi)源新模型 MiMo-V2-Flash。
在今日上午的小米“人車(chē)家全生態(tài)”合作伙伴大會(huì)上,Xiaomi MiMo大模型負(fù)責(zé)人羅福莉也首秀并介紹了這款最新發(fā)布的大模型。
圖片
MiMo-V2-Flash 采用專(zhuān)家混合架構(gòu) (MoE),總參數(shù) 3090 億,活躍參數(shù) 150 億,主打高速推理與智能體工作流,性能媲美 DeepSeek-V3.2、Kimi-K2-Thinking 等頭部開(kāi)源模型。
圖片
最炸裂的是MiMo-V2-Flash的推理速度,達(dá)到了 150 tokens/秒,成本壓到了每百萬(wàn) token 輸入 0.1 美元、輸出 0.3 美元,主打一個(gè)超絕性?xún)r(jià)比。
圖片
MiMo-V2-Flash專(zhuān)為推理、編碼和智能體場(chǎng)景構(gòu)建,各式各樣的網(wǎng)頁(yè)開(kāi)發(fā)也不在話(huà)下,比如一個(gè)炫酷的豪華圣誕樹(shù)3D交互網(wǎng)頁(yè):
圖片
此外,MiMo-V2-Flash 采用 MIT 開(kāi)源協(xié)議,基礎(chǔ)版權(quán)重及技術(shù)報(bào)告均已開(kāi)源。
躋身開(kāi)源模型前兩名,編程能力逼近GPT-5-High
先來(lái)看看跑分情況,MiMo-V2-Flash 在多項(xiàng)主流基準(zhǔn)測(cè)試中表現(xiàn)突出,媲美K2-Thinking和DeepSeek-V3.2。
圖片
在 AIME 2025 數(shù)學(xué)競(jìng)賽 和 GPQA-Diamond 科學(xué)知識(shí)測(cè)試這類(lèi)高難度任務(wù)中,它都穩(wěn)穩(wěn)排進(jìn)開(kāi)源模型前兩名,推理能力已經(jīng)站到第一梯隊(duì)。
圖片
它的編程成績(jī)也讓人眼前一亮。在被公認(rèn)為“最接近真實(shí)世界開(kāi)發(fā)”的 SWE-bench Verified 測(cè)試中,MiMo-V2-Flash 拿下 73.4% 的通過(guò)率,直接刷新開(kāi)源模型紀(jì)錄,整體表現(xiàn)已經(jīng)逼近 GPT-5-High。要知道,這個(gè)測(cè)試不是寫(xiě)小腳本,而是讓模型去修真實(shí)項(xiàng)目里的 bug。73.4% 的成功率,意味著它已經(jīng)能解決絕大多數(shù)實(shí)際編程問(wèn)題。
放到多語(yǔ)言場(chǎng)景,MiMo-V2-Flash 同樣不虛。在 SWE-Bench Multilingual 中,它的解題成功率達(dá)到 71.7%,說(shuō)明不管是 Python、Java 還是其他語(yǔ)言,都具備穩(wěn)定的工程能力。
再看智能體任務(wù),這也是它的重點(diǎn)優(yōu)勢(shì)之一。
在 τ2-Bench 中,MiMo-V2-Flash 在通信、零售、航空三類(lèi)任務(wù)里分別拿到 95.3、79.5 和 66.0 的高分;在 BrowseComp 搜索代理測(cè)試中,基礎(chǔ)得分為 45.4,開(kāi)啟上下文管理的情況下,成績(jī)直接躍升到 58.3。這說(shuō)明它不僅能“回答問(wèn)題”,還能在多輪交互中持續(xù)理解目標(biāo)、做決策、完成任務(wù)。
此外,它的寫(xiě)作和表達(dá)質(zhì)量也接近頂級(jí)閉源模型水準(zhǔn)。這是MiMO-V2-Flash即興創(chuàng)作的小說(shuō),看起來(lái)筆觸還是相當(dāng)細(xì)膩的:
圖片
三項(xiàng)黑科技:SWA、輕量級(jí)MTP和后訓(xùn)練MOPD
MiMo-V2-Flash 能做到推理性能的極致性?xún)r(jià)比,其核心來(lái)自一系列專(zhuān)門(mén)為高吞吐推理設(shè)計(jì)的架構(gòu)創(chuàng)新。
- 混合滑動(dòng)窗口注意力機(jī)制
MiMo-V2-Flash 采用了一種 1:5 的混合注意力設(shè)計(jì):少量全局注意力,搭配大量 滑動(dòng)窗口注意力(Sliding Window Attention,SWA)。大量實(shí)驗(yàn)結(jié)果表明,SWA 結(jié)構(gòu)簡(jiǎn)單、效率高、易落地,在通用任務(wù)、長(zhǎng)上下文處理以及復(fù)雜推理任務(wù)上,整體表現(xiàn)都優(yōu)于線性注意力。
圖片
更重要的是,SWA 使用固定大小的 KV Cache,這意味著它可以非常順滑地接入現(xiàn)有的訓(xùn)練和推理基礎(chǔ)設(shè)施,不需要大規(guī)模重構(gòu)工程體系。
羅福莉還指出:窗口大小 128 是關(guān)鍵數(shù)值。實(shí)驗(yàn)證明,盲目擴(kuò)大窗口(如增至 512)反而會(huì)導(dǎo)致性能下降。同時(shí)她強(qiáng)調(diào),在實(shí)施該機(jī)制時(shí),sink values 是維持性能的關(guān)鍵,絕不可省略。
圖片
- 輕量級(jí)多 Token 預(yù)測(cè) (MTP)
傳統(tǒng)大模型解碼,本質(zhì)上是一個(gè)強(qiáng)內(nèi)存受限的過(guò)程:算力并沒(méi)有完全吃滿(mǎn),瓶頸往往卡在 KV Cache 的讀寫(xiě)上。
而MTP讓模型一次性預(yù)測(cè)多個(gè)候選 token、,然后由主模型并行驗(yàn)證這些 token 是否可接受。這樣一來(lái),F(xiàn)FN 和 Attention 的算術(shù)強(qiáng)度都被同時(shí)拉高,卻不增加 KV Cache 的 I/O 壓力,真正實(shí)現(xiàn)了 token 級(jí)并行。
在 MiMo-V2-Flash 中,MTP 不是外掛模塊,而是原生能力,直接作為自推測(cè)解碼的草稿模型使用,帶來(lái)了實(shí)打?qū)嵉牟渴鸺?jí)加速效果。
為了避免 MTP 本身變成新的性能瓶頸,MiMo-V2-Flash 對(duì) MTP 模塊做了非常克制的設(shè)計(jì):
- 使用 Dense FFN(而非 MoE),控制參數(shù)規(guī)模
- 使用 SWA 而非 GA,進(jìn)一步降低 KV Cache 和注意力計(jì)算成本
- 模塊整體保持輕量,但不犧牲預(yù)測(cè)質(zhì)量
圖片
結(jié)果也很漂亮。據(jù)羅福莉介紹,在三層 MTP 設(shè)置下,他們觀察到平均接受長(zhǎng)度超過(guò) 3,編碼任務(wù)速度提升約 2.5 倍。它有效解決了小批量 On-Policy 強(qiáng)化學(xué)習(xí)中「長(zhǎng)尾樣本」帶來(lái)的 GPU 空閑時(shí)間浪費(fèi)問(wèn)題。
圖片
- MOPD:一種全新的后訓(xùn)練范式
在后訓(xùn)練階段,小米還整了個(gè)新活:多教師在線策略蒸餾(MOPD)。
MOPD 的核心,是一種高效的 on-policy 學(xué)習(xí)機(jī)制。具體來(lái)說(shuō),研究者先通過(guò) SFT / RL 訓(xùn)練出多個(gè)領(lǐng)域?qū)<壹?jí)教師模型,隨后讓學(xué)生模型直接從自身策略分布中進(jìn)行采樣(rollout),并利用來(lái)自多個(gè)教師模型提供的、細(xì)粒度到 token 級(jí)別的密集獎(jiǎng)勵(lì)信號(hào)進(jìn)行優(yōu)化。
圖片
最驚人的是效率提升,MOPD 只需要傳統(tǒng)方法 1/50 的算力,就能讓學(xué)生模型達(dá)到教師性能峰值。這意味著小米能用更少的資源,更快地迭代模型。
羅福莉表示,這個(gè)方法借鑒于Thinking Machine,將多個(gè)強(qiáng)化學(xué)習(xí)模型進(jìn)行融合,結(jié)果帶來(lái)了驚人的效率提升。這為構(gòu)建一個(gè)自我強(qiáng)化循環(huán)系統(tǒng)奠定了基礎(chǔ),學(xué)生模型可以逐步進(jìn)化,最終成為更強(qiáng)的教師模型。
圖片
屬于開(kāi)源模型的「小米時(shí)刻」,來(lái)了
在今天上午的小米“人車(chē)家全生態(tài)”合作伙伴大會(huì)上,羅福莉表示:
“2020年我剛進(jìn)入這行的時(shí)候,中國(guó)開(kāi)源模型和世界頂尖閉源模型的代際差距,我認(rèn)為還有3年;但到了今天,這個(gè)差距只有數(shù)月。”
這無(wú)疑是一句令人熱血沸騰的話(huà),意味著中國(guó)開(kāi)源模型與頂尖閉源的差距在不斷縮小,且性?xún)r(jià)比在不斷提升。此次MiMo-V2-Flash的 150 tokens/秒的推理速度,每百萬(wàn) token 輸入 0.1 美元、輸出 0.3 美元的成本,也讓我們目睹了中國(guó)開(kāi)源模型能把性?xún)r(jià)比壓榨到多么極致的地步。
在最新的羅永浩播客中,MiniMax 創(chuàng)始人閆俊杰也公開(kāi)表示:現(xiàn)在中國(guó)開(kāi)源模型的研發(fā)成本只有世界頂尖模型的1/10,但性能差距僅不到5%。
小米的野心不止于“人車(chē)家”。羅福莉在社交媒體上披露了更多信息:MiMo-V2-Flash的發(fā)布只是小米AGI路線圖的第二步。這背后暗示了小米在AI賽道上全面發(fā)力的決心。
屬于開(kāi)源模型的「小米時(shí)刻」,要來(lái)了。
MiMo-V2-Flash模型:https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
技術(shù)報(bào)告:https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
AI Studio 體驗(yàn)地址:http://aistudio.xiaomimimo.com



































