国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

開源賽道太擠了!月之暗面開源新版Muon優化器

人工智能 開源
省一半算力跑出2倍效果,月之暗面開源優化器Muon,同預算下全面領先。

月之暗面和 DeepSeek 這次又「撞車」了。

上次是論文,兩家幾乎前后腳放出改進版的注意力機制,可參考《撞車 DeepSeek NSA,Kimi 楊植麟署名的新注意力架構 MoBA 發布,代碼也公開》、《剛剛!DeepSeek 梁文鋒親自掛名,公開新注意力架構 NSA》。

這次是開源。

上周五,DeepSeek 剛剛官宣這周要連續開源 5 個代碼庫,卻被月之暗面深夜截胡了。

昨天,月之暗面搶先一步開源了改進版 Muon 優化器,比 AdamW 優化器計算效率提升了 2 倍。

image.png

團隊人員表示,原始 Muon 優化器在訓練小型語言模型方面表現出色,但其在擴展到更大模型方面的可行性尚未得到證明。因此,團隊人員確定了兩種對擴展 Muon 至關重要的技術:

  • 添加權重衰減:對擴展到更大模型至關重要。
  • 一致的 RMS 更新:在模型更新上執行一致的均方根。

這些技術使得 Muon 能夠在大規模訓練中直接使用,而無需調整超參數。Scaling law 實驗表明,與計算最優訓練的 AdamW 相比,Muon 的計算效率提升了 2 倍。

基于這些改進,月之暗面推出了 Moonlight,這是一個 3B/16B 參數的 Mixture-of-Expert(MoE)模型,使用 Muon 進行了 5.7 萬億 tokens 的訓練。該模型刷新了當前的「帕累托前沿」,換句話說,在相同的訓練預算下,沒有其他模型能在所有性能指標上同時超越它。

與之前的模型相比,Moonlight 也以更少的訓練 FLOPs 獲得了更好的性能。

如下圖所示,該研究進行了 Scaling law 研究,將 Muon 與強大的 AdamW 基線進行了比較,結果展示了 Muon 的卓越性能。Muon 實現了與 AdamW 訓練相當的性能,同時僅需要大約 52% 的訓練 FLOP。

image.png

月之暗面不但開源了內存優化且通信高效的 Muon 實現代碼,并且還發布了預訓練、指令調優以及中間檢查點,以支持未來的研究。

論文《 MUON IS SCALABLE FOR LLM TRAINING 》。

image.png

  • 論文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
  • 代碼地址:https://github.com/MoonshotAI/Moonlight
  • 模型地址:https://huggingface.co/moonshotai/Moonlight-16B-A3B

研究介紹

擴展 Muon 

Muon 優化器為 OpenAI 研究者 Keller Jordan 等人在 2024 年提出的,他們的研究表明在小規模訓練中 Muon 的表現顯著優于 AdamW。

但月之暗面發現,當將其擴展到訓練更大模型并使用更多 token 時,模型性能提升逐漸減弱。他們觀察到,權重和層輸出的 RMS 值持續增長,最終超出了 bf16 的高精度范圍,這可能會損害模型的性能。

為了解決這個問題,月之暗面在 Muon 中引入了標準的 AdamW(Loshchilov 等人,2019)權重衰減機制。

為了探究這一機制,研究者對 Muon 進行了有無權重衰減的實驗,他們訓練了一個包含 800M 參數和 100B token(約為最優訓練 token 量的 5 倍)的模型。圖 2 展示了使用 AdamW、無權重衰減的原始 Muon 以及帶權重衰減的 Muon 訓練的模型的驗證損失曲線。

image.png

結果顯示,雖然原始 Muon 在初期收斂速度更快,但一些模型權重隨時間的推移增長過大,可能會影響模型的長期性能。

加入權重衰減后解決了這一問題 —— 結果表明,帶權重衰減的 Muon 優于原始 Muon 和 AdamW,獲得了更低的驗證損失。公式 3 為表達式,其中 λ 為權重衰減比率。

一致的 RMS 更新。研究者發現 Adam 和 AdamW 的一個重要特性是,它們將更新的 RMS 維持在 1 左右。然而,月之暗面發現 Muon 更新 RMS 會根據參數矩陣形狀的變化而變化,具體如下引理 1 所示:

image.png

為了在不同形狀矩陣之間保持一致的 RMS 更新,該研究通過image.png來擴展 Muon 矩陣更新,從而抵消引理 1 中提到的影響。

在實際應用中,研究者通常將 AdamW 與 Muon 結合使用,以處理非矩陣參數。本文希望優化器超參數(學習率 η、權重衰減 λ)能夠在矩陣參數和非矩陣參數之間共享。

因此他們提出將 Muon 更新的 RMS 調整到與 AdamW 相似的范圍。他們通過以下調整將 Muon 更新 RMS 縮放至這一范圍:

分布式 Muon

月之暗面團隊還提出了一種基于 ZeRO-1 的分布式解決方案,稱為分布式 Muon(Distributed Muon)。分布式 Muon 遵循 ZeRO-1 在數據并行(DP)上對優化器狀態進行劃分,并與普通的 ZeRO-1 AdamW 優化器相比引入了兩個額外的操作,算法 1 描述了分布式 Muon 的實現。

image.png

實驗

RMS 的一致性

為了使所有矩陣參數更新的 RMS 值與 AdamW 的 RMS 保持一致,研究團隊嘗試了兩種方法來控制參數更新的 RMS,并將其與只用了 AdamW 的基線的 RMS 進行了對比。

由于大規模訓練模型時,會出現各種意料之外的情況,因此,研究團隊測試了 Muon 對訓練早期階段的影響。當矩陣維度差異增大時,更新 RMS 不一致的問題會更加明顯。該團隊對模型架構進行了微調,用標準的 2 層 MLP 替換了 Swiglu MLP,并將其矩陣參數的形狀從 [H, 2.6H] 改為 [H, 4H]。

團隊評估了模型的損失,并監控了關鍵參數的 RMS,尤其是形狀為 [H, H] 的注意力查詢權重和形狀為 [H, 4H] 的 MLP 權重。

實驗結果表明(見表 1),Update Norm 和 Adjusted LR 均優于基線方法,且 Adjusted LR 的計算成本更低,因此被選用于后續實驗。

Muon 的 Scaling Law

為了與 AdamW 公平比較,該團隊在一系列基于 Llama 架構的模型上對 Muon 進行了拓展。

對于 Muon,由于其 RMS 與 AdamW 匹配,團隊直接復用了 AdamW 的超參數。

實驗結果顯示,擬合的 Scaling Law 曲線表明,在計算最優設置下,Muon 僅需約 52% 的訓練 FLOPs 即可達到與 AdamW 相當的性能。這進一步說明了 Muon 在大規模語言模型訓練中的高效性。

使用 Muon 進行預訓練

為了評估 Muon 在模型架構中的表現,該團隊使用 DeepSeek-V3-Small 架構從頭開始預訓練了 Moonlight 模型。

Moonlight 模型總共進行了 5.7 萬億 tokens 的訓練,但在訓練到 1.2 萬億 tokens 的階段,團隊將其與 DeepSeek-V3-Small(使用 1.33T tokens 訓練的 2.4B/16B 參數 MoE 模型)和 Moonlight-A(與 Moonlight 設置相同,但使用 AdamW 優化器)進行了比較。如表 4 所示,Moonlight 在語言、數學和編碼等任務上都顯著優于 Moonlight-A,證明了 Muon 的擴展優勢。

在完整訓練后,Moonlight 與類似規模的開源模型(如 LLAMA3-3B、Qwen2.5-3B 和 Deepseek-v2-Lite)進行了比較。結果顯示,Moonlight 在性能上優于使用相同數量 tokens 訓練的模型,與更大參數規模模型相比,也較有競爭力。

此外,研究團隊還發現,Muon 可以讓模型的權重更新更「多樣化」,尤其在 MoE 模型中表現突出。

在微調階段,在預訓練和微調階段都使用 Muon,模型表現會比用 AdamW 的組合更好,但如果微調和預訓練的優化器不一致,優勢就不明顯了。

更多細節,請參閱論文原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-24 09:15:00

2025-07-17 07:12:45

2025-08-14 10:20:10

2025-06-17 15:24:48

開源模型AI

2025-05-13 09:21:30

2012-10-09 09:25:57

2025-01-21 08:00:00

2009-08-18 09:32:21

Silverlight

2025-11-17 16:13:30

AI開源模型

2012-02-22 23:17:10

2012-02-23 23:20:46

2012-02-23 23:08:50

mailpostfix開源

2012-02-22 21:53:18

CentOS開源

2012-02-22 22:11:20

開源Tomcat

2025-08-14 18:14:38

智能模型開源

2009-05-26 09:04:07

skyeye嵌入式模擬器

2020-03-30 15:20:56

Java開發代碼

2025-06-23 09:00:00

2021-12-21 09:20:47

ReactOS開源Windows

2012-02-22 22:31:18

Nginx開源
點贊
收藏

51CTO技術棧公眾號

中文字幕国产传媒| 一本久道久久综合狠狠爱| 色系列之999| 亚洲伊人春色| 日韩电影在线播放| 久久精品亚洲精品国产欧美| 在线观看午夜看亚太视频| 91精品国产色综合久久久蜜香臀| 涩涩涩久久久成人精品| 91手机在线观看| 成人18视频日本| 亚洲s色大片| 久久精品中文字幕| 9色精品在线| 天天操天天爽天天射| 欧美二区三区91| 久久a爱视频| 日韩视频在线观看视频| 一区二区三区精品在线观看| 春色校园综合激情亚洲| 欧美影院久久久| 国产在线精品不卡| 国产在线高清| 91国在线精品国内播放| 久久国产福利国产秒拍| 亚洲热app| 欧美激情亚洲视频| 久久国产精品99久久久久久老狼| 一区二区三区四区在线免费视频| 国产亚洲欧洲高清一区| 国产一区清纯| 黄网在线播放| 日韩av在线网| 国产一区导航| 欧美大片aaa| 欧美大秀在线观看| 国产在线不卡视频| a√资源在线| 国产精品天天狠天天看| 欧美极品美女视频| 欧美成a人片在线观看久| 国内精品一区二区| 亚洲国产精品久久久久秋霞影院| 精品视频在线播放一区二区三区| 日本一区二区在线| 日本高清不卡视频| 国产欧美亚洲精品a| 黄色影院一级片| 日韩精品亚洲视频| 亚洲香蕉网站| 在线观看视频色潮| 97在线视频免费| 成人精品在线视频观看| 欧美韩日亚洲| 精品无人区一区二区三区竹菊| 偷拍与自拍一区| 欧美男gay| jizz18欧美| 欧美精品久久久久久久久久| 成人av综合一区| free欧美| 黄色小视频大全| 亚洲第一中文字幕| 模特精品在线| 日韩欧美小视频| 国产日韩欧美在线| 亚洲成人免费视| 日韩动漫一区| 三上悠亚在线一区二区| 欧美国产在线视频| 国产午夜精品理论片a级大结局| 91丨精品丨国产| 黄色免费观看视频网站| 另类色图亚洲色图| 国产日韩欧美一区二区三区乱码 | 日韩av视屏| 国产经典一区二区| 一区二区三区国产精品| 成人精品电影| 水中色av综合| 精品乱码一区| 亚洲高清在线观看| 国产高清在线精品| 国产精品亚洲成在人线| 成人av一级片| 青青在线精品| 久久精品免费一区二区| 91久久精品久久国产性色也91| 精品国产一区二区三区在线| 亚洲成色777777在线观看影院| 久久99精品一区二区三区三区| 国产黄大片在线观看| 亚洲午夜激情| 国产亚洲精品日韩| 久久一二三国产| 久久精品国产亚洲blacked| 九九99九九精彩| 国产欧美一区二区三区四区| 欧美在线观看视频一区二区 | 555夜色666亚洲国产免| 蜜臀精品一区二区三区在线观看| 日韩成人影音| 国产色视频在线播放| 国产精品久久久久久久av大片| 欧美性极品xxxx做受| 老司机一区二区三区| 波多视频一区| 亚洲36d大奶网| 91久久精品美女| 亚洲第一国产精品| 久久人人超碰精品| 91综合久久| 超碰在线视屏| 亚洲77777| 成人综合av网| 亚洲欧美中文字幕在线一区| 国产精品网友自拍| 国产精品porn| 欧美a一级片| 在线观看黄网| 日本一区二区三区四区五区六区| 国内精品久久久久久中文字幕| 欧美丝袜第三区| 99久久国产免费看| 欧美激情日韩| 精品三级在线| 免费在线黄色影片| 国产v片免费观看| 91免费福利视频| 中文字幕日韩av| 精品女厕一区二区三区| 国产精品白丝av| 欧美黄色录像片| 日本免费久久| 在线免费91| 欧美日韩中文字幕在线播放| 国产精品久久久久久久久免费看| 亚洲成人av中文字幕| 中文字幕人成不卡一区| 美女网站视频久久| 日韩免费在线| 成人黄色图片网站| 在线观看av黄网站永久| 手机在线成人免费视频| 欧美日韩国产精品一卡| 欧美在线激情网| 亚洲区免费影片| 91高清视频在线| 欧美韩国一区二区| 精品在线一区二区| 欧美freesex交免费视频| 欧美久久亚洲| 成人女同在线观看| 在线国产一区二区三区| 免费日韩中文字幕| 日韩中文字幕一区| 国产在线视频一区| 欧美激情久久久久| 国产视频综合在线| 91久久人澡人人添人人爽欧美 | 国产一区不卡精品| 你懂的国产精品| 成人看片黄a免费看视频| av小说在线播放| 五月激情在线| 天堂在线资源视频| 麻豆视频传媒入口| 精品久久久三级| 国产精品一区二区久久国产| 久久久久www| 亚洲精品国偷自产在线99热 | 欧美一级视频免费看| 欧美最大成人综合网| 成人h视频在线| 97在线视频免费播放| 中文字幕自拍vr一区二区三区| 日韩欧美黄色影院| 在线观看亚洲精品| 一区二区三区自拍| 国产欧美日韩久久| 97成人超碰视| 国产河南妇女毛片精品久久久| 另类av一区二区| 97视频热人人精品免费| 久久香蕉精品香蕉| 国产精品美女久久久久人| 中文字幕这里只有精品| 男人添女人下部高潮视频在线观看 | 黄网站色大毛片| 99久久国产宗和精品1上映| 欧美黄色免费网址| 亚洲人成人77777线观看| 久久久久成人精品免费播放动漫| 91在线精品观看| 95av在线视频| 91久久精品国产91久久| 成人精品视频在线| 92福利视频午夜1000合集在线观看| 91亚洲国产成人精品性色| 国产欧美久久一区二区|