国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

月之暗面開(kāi)源改進(jìn)版Muon優(yōu)化器,算力需求比AdamW銳減48%,DeepSeek也適用

人工智能 開(kāi)源
團(tuán)隊(duì)發(fā)現(xiàn)了Muon方法的Scaling Law,做出改進(jìn)并證明了Muon對(duì)更大的模型同樣適用。

算力需求比AdamW直降48%,OpenAI技術(shù)人員提出的訓(xùn)練優(yōu)化算法Muon,被月之暗面團(tuán)隊(duì)又推進(jìn)了一步!

團(tuán)隊(duì)發(fā)現(xiàn)了Muon方法的Scaling Law,做出改進(jìn)并證明了Muon對(duì)更大的模型同樣適用

在參數(shù)量最高1.5B的不同Llama架構(gòu)模型上,改進(jìn)后的Muon算力需求僅為AdamW的52%。

圖片

同時(shí)團(tuán)隊(duì)還基于DeepSeek架構(gòu)訓(xùn)練出了一個(gè)16B的MoE模型,與改進(jìn)后的優(yōu)化算法一同開(kāi)源。

圖片

Muon技術(shù)博客發(fā)布當(dāng)時(shí)主要適用于較小的模型和數(shù)據(jù)集,作者留下了三個(gè)懸而未決的問(wèn)題:

  • Muon能否用于更大規(guī)模的訓(xùn)練?
  • Muon能否在更大規(guī)模的GPU集群上使用?
  • Muon是否同樣適用于微調(diào)和強(qiáng)化學(xué)習(xí)?
    現(xiàn)在月暗團(tuán)隊(duì)用實(shí)驗(yàn)給出了回答——全部都是Yes。

圖片

消息一出,當(dāng)時(shí)Muon的作者也都很激動(dòng),主要作者Keller Jordan表示這是Muon規(guī)模化的首個(gè)成功報(bào)告,為團(tuán)隊(duì)送上了祝賀。

圖片

另一名貢獻(xiàn)者,當(dāng)時(shí)負(fù)責(zé)Muon規(guī)模化實(shí)驗(yàn)的Hyperbolic Labs聯(lián)創(chuàng)兼CTO Yuchen Jin也表示,月暗團(tuán)隊(duì)的這項(xiàng)成果,是Muon的一次勝利。

圖片

將AdamW特點(diǎn)引入Muon

在介紹月暗團(tuán)隊(duì)的工作之前,先來(lái)了解一下Muon是個(gè)什么樣的技術(shù)。

這是一種神經(jīng)網(wǎng)絡(luò)隱藏層的2D參數(shù)優(yōu)化器,主要作者是OpenAI深度學(xué)習(xí)團(tuán)隊(duì)的Keller Jordan。

這項(xiàng)成果發(fā)表于去年的12月8日,而Keller也是去年12月加入的OpenAI。

Muon的核心思想是通過(guò)正交化梯度更新矩陣,避免參數(shù)更新陷入局部極小,使模型能夠?qū)W習(xí)到更加多樣化的特征表示。

在94%的精度下,Muon把CIFAR-10在A100上的訓(xùn)練時(shí)間從3.3秒縮短至2.6秒。

圖片

不過(guò)當(dāng)時(shí)Muon團(tuán)隊(duì)只證明了其在小型模型和數(shù)據(jù)集上的可行性,對(duì)于較大的模型能否適用則是個(gè)未知數(shù)。

現(xiàn)在經(jīng)過(guò)月暗團(tuán)隊(duì)的改進(jìn)之后,Muon被證明對(duì)于更大的模型和數(shù)據(jù)集同樣適用

針對(duì)模型本身,團(tuán)隊(duì)吸收了AdamW中的一些特點(diǎn),移植到了Muon當(dāng)中,具體包括兩個(gè)方面。

一是引入了權(quán)重衰減機(jī)制,在權(quán)重更新公式中添加了一個(gè)帶有衰減系數(shù)的項(xiàng)。

圖片

這樣做的原因是作者發(fā)現(xiàn)直接將Muon應(yīng)用到大規(guī)模訓(xùn)練時(shí),模型權(quán)重和層輸出的幅度會(huì)持續(xù)增長(zhǎng),最終超出bf16的高精度表示范圍,損害模型性能。

在訓(xùn)練一個(gè)8億參數(shù)模型至100B tokens(約5倍計(jì)算預(yù)算最優(yōu))的過(guò)程中,團(tuán)隊(duì)對(duì)比了AdamW、無(wú)權(quán)重衰減的Muon和帶權(quán)重衰減的Muon。

結(jié)果顯示,帶權(quán)重衰減的Muon在過(guò)擬合階段取得了最佳效果,驗(yàn)證了權(quán)重衰減的必要性。

圖片

第二項(xiàng)改進(jìn),是調(diào)整了Muon的參數(shù)更新尺度,使不同形狀矩陣參數(shù)的更新幅度保持一致,并與AdamW的更新幅度匹配。

Muon的一個(gè)特點(diǎn)是,對(duì)于形狀為[A,B]的矩陣參數(shù),其理論更新幅度為sqrt(1/max(A,B))。

這導(dǎo)致不同形狀矩陣參數(shù)的更新幅度差異很大,比如對(duì)于MLP這種寬矩陣,更新會(huì)過(guò)小,而將每個(gè)head看作獨(dú)立矩陣時(shí),更新又會(huì)過(guò)大。

此外,這個(gè)幅度也與AdamW不一致,給超參數(shù)的設(shè)置帶來(lái)困難。

為了讓不同矩陣參數(shù)的更新幅度匹配,并與AdamW保持一致,作者嘗試了幾種改進(jìn)方案,最終選擇直接基于形狀調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率

其中0.2是通過(guò)實(shí)驗(yàn)確定的一個(gè)常數(shù),用于將Muon的更新尺度與AdamW對(duì)齊。

圖片

除了對(duì)Muon本身的改進(jìn),要想將Muon用于更大規(guī)模的訓(xùn)練,還需要將其擴(kuò)展到分布式訓(xùn)練環(huán)境中

由于Muon需要完整的梯度矩陣來(lái)計(jì)算正交化的更新量,而現(xiàn)有的分布式訓(xùn)練框架(如ZeRO-1、Megatron-LM等)都假設(shè)優(yōu)化器狀態(tài)可以獨(dú)立地按元素切分到不同設(shè)備上,所以它們無(wú)法直接支持Muon。

為了解決這個(gè)問(wèn)題,論文作者提出了分布式Muon的并行化策略。

它在ZeRO-1的基礎(chǔ)上引入了兩個(gè)額外的操作:

  • 一是在每個(gè)數(shù)據(jù)并行組內(nèi)做梯度聚合通信,將分散的梯度切片合并成完整的矩陣;
  • 二是基于聚合后的梯度矩陣并行計(jì)算正交化的更新量,然后只保留與本地參數(shù)對(duì)應(yīng)的那一部分。

這種實(shí)現(xiàn)方式在最小化內(nèi)存占用和通信開(kāi)銷的同時(shí),最大限度地保留了原始Muon算法的數(shù)學(xué)性質(zhì)。

圖片

證明Muon擴(kuò)展可行性

基于上述Muon改進(jìn),作者取得了以下成果,作者在Llama架構(gòu)的一系列稠密模型上,進(jìn)行了Muon和AdamW的模型縮放對(duì)比實(shí)驗(yàn)。

結(jié)果表明,在計(jì)算預(yù)算最優(yōu)的情況下,Muon的樣本效率是AdamW的1.92倍,即訓(xùn)練FLOPS只需AdamW的52%,就能達(dá)到相當(dāng)?shù)男阅堋?/p>

這一發(fā)現(xiàn)證實(shí)了Muon在大規(guī)模訓(xùn)練中的效率優(yōu)勢(shì)

圖片

在此基礎(chǔ)之上,作者以DeepSeek-V3-Small架構(gòu)作為基礎(chǔ),用改進(jìn)的Muon訓(xùn)練了Moonlight模型。

Moonlight是一個(gè)MoE模型,具有15.29B的總參數(shù)和2.24B激活參數(shù),訓(xùn)練token量為5.7T。

與相同規(guī)模和數(shù)據(jù)量的模型相比,Moonlight在英語(yǔ)理解與推理(MMLU、TriviaQA、BBH)、代碼生成(HumanEval、MBPP)、數(shù)學(xué)推理(GSM8K、MATH、CMATH)、中文理解(C-Eval、CMMLU)等各類任務(wù)上都取得了明顯更好的性能。

即使與使用更大數(shù)據(jù)集訓(xùn)練的稠密模型相比,Moonlight也展現(xiàn)了極強(qiáng)的競(jìng)爭(zhēng)力。

圖片

與多個(gè)知名語(yǔ)言模型的對(duì)比表明,Moonlight在性能-訓(xùn)練預(yù)算平面上推進(jìn)了帕累托前沿(Pareto Frontier)

(注:帕累托前沿是一個(gè)經(jīng)濟(jì)學(xué)和管理學(xué)中的概念,描述的是在多目標(biāo)決策問(wèn)題中所有可能的最優(yōu)解的集合,這些解在多個(gè)目標(biāo)之間取得了最佳平衡。在帕累托前沿上的每一個(gè)點(diǎn),都意味著一個(gè)目標(biāo)的改善必然以犧牲另一個(gè)目標(biāo)為代價(jià),因此它代表了在多個(gè)目標(biāo)之間實(shí)現(xiàn)的最佳權(quán)衡。)

圖片

為了進(jìn)一步分析Muon更新矩陣參數(shù)的內(nèi)在機(jī)制,作者對(duì)比了Muon和AdamW訓(xùn)練得到的模型在不同訓(xùn)練階段的參數(shù)矩陣奇異值譜。

結(jié)果發(fā)現(xiàn),Muon優(yōu)化的矩陣在各層各類參數(shù)上,總是比AdamW有更高的奇異值熵。這從經(jīng)驗(yàn)上驗(yàn)證了Muon通過(guò)正交化來(lái)學(xué)習(xí)更多樣化表示的直覺(jué)。

圖片

最后,在Moonlight模型的基礎(chǔ)上,作者還探索了Muon在指導(dǎo)微調(diào)階段的效果,結(jié)果表明,在預(yù)訓(xùn)練和微調(diào)階段均使用Muon的效果是最佳的。

圖片

技術(shù)報(bào)告:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Code:https://github.com/MoonshotAI/Moonlight
Moonlight模型:https://huggingface.co/moonshotai/Moonlight-16B-A3B

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-24 13:50:00

算力AI開(kāi)源

2009-03-16 10:27:15

2025-07-17 07:12:45

2023-02-25 22:05:16

算力數(shù)據(jù)

2023-09-26 08:39:28

限流方式滑動(dòng)窗口計(jì)數(shù)器

2025-08-14 10:20:10

2012-07-31 09:47:22

微軟Windows 8

2012-07-31 13:31:34

Windows 8鼠標(biāo)鍵盤

2022-09-06 08:31:09

線程池工具系統(tǒng)

2025-02-25 18:41:39

2025-04-15 01:00:00

DeepSeek智算中心人工智能

2025-02-24 12:52:46

2022-12-07 09:49:34

AI模型

2025-02-24 11:32:57

2025-06-17 15:24:48

開(kāi)源模型AI

2025-09-08 09:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

波多野结衣亚洲| 日本一区二区三区四区在线观看 | 日韩亚洲一区二区| 极品粉嫩饱满一线天在线| 日韩av大片| 亚洲国产99精品国自产| 黑森林福利视频导航| 成人免费在线电影网| 色av一区二区| 日韩av一二三四区| 国模大胆一区二区三区| 久久久精品亚洲| 欧美理论片在线播放| 中文字幕一区二区三区在线观看| 精品无人区一区二区三区| 免费成人av| 九九久久国产精品| 自拍偷拍 国产| 蜜臀av一区二区三区| 亚洲精品美女在线观看| 国产va在线观看| 日本一区二区三区视频视频| 日韩电影大全在线观看| 欧美国产激情| 国产精品欧美激情| 精品国产伦一区二区三区观看说明 | 国一区二区在线观看| 99热成人精品热久久66| 日韩成人dvd| 亚洲伊人久久大香线蕉av| 亚洲va久久久噜噜噜久久| 亚洲国产女人aaa毛片在线| 亚洲免费av一区二区| 久久久精品中文字幕麻豆发布| 免费精品视频一区二区三区| 免费日本视频一区| 日韩三级中文字幕| 国内不卡一区二区三区| 国产美女主播在线播放| 日韩电影大全网站| 日韩精品综合一本久道在线视频| 亚欧无线一线二线三线区别| 精品国产成人| 91精品国产高清| 在线中文字幕视频观看| 婷婷夜色潮精品综合在线| 91免费视频黄| 中文无码久久精品| 久久亚洲精品网站| 91精品久久久久久综合五月天| 97久久久久久| 95精品视频| 91精品国产高清自在线| 久久99精品国产自在现线| 色阁综合伊人av| 日韩在线你懂得| 欧美一级bbbbb性bbbb喷潮片| 成人看片在线观看| 欧美成人一区二区三区| 亚洲国产精品精华素| 欧美日韩中文字幕精品| 亚洲精品国产精品国产| 日韩欧美亚洲范冰冰与中字| 美女精品视频| 色综合久久综合| 日韩在线伦理| 国产成人精品免高潮在线观看| 欧美hd在线| 国产精品无码人妻一区二区在线| 99麻豆久久久国产精品免费优播| 99riav视频| 色哟哟一区二区在线观看| a√资源在线| 中文字幕日韩欧美| 久久蜜桃精品| 亚洲天堂av网| 午夜视频在线看| 欧美国产日韩一区二区三区| 婷婷久久一区| 91精品国产高清久久久久久91裸体 | 国产xxx69麻豆国语对白| 激情综合色播五月| 99reav在线| 久久艳片www.17c.com| 久久精品99国产精品| 亚洲欧洲成人| 97av在线影院| 久久婷婷一区二区三区| 中文字幕网av| 精品日韩欧美在线| 9国产精品午夜| 日韩av播放器| 久久精品国产亚洲aⅴ| 日韩大片b站免费观看直播| 国产999精品| 亚洲午夜在线电影| 碰碰在线视频| 在线免费观看一区二区三区| 日韩黄色高清视频| 蜜桃视频一区二区| 久草综合在线| 男人天堂成人在线| 7777免费精品视频| 中文一区二区在线观看| 大桥未久女教师av一区二区| 51xx午夜影福利| 色中色综合影院手机版在线观看| 久久久久久久电影| 久久久久亚洲精品中文字幕| 春色成人在线视频| 欧美www视频| 亚洲一区欧美二区| 国产理论在线| 2018高清国产日本一道国产| 97精品国产97久久久久久春色 | 欧美性猛交xxxx免费看久久久| 欧美激情综合| 精品国产99久久久久久| 国产在线资源一区| 婷婷中文字幕一区三区| 一个人看的免费视频色| 成人美女免费网站视频| 国产成人精品视频| 欧美成人一区二区三区电影| 国产亚洲制服色| 久久大胆人体视频| 黄动漫在线免费观看| 一区二区在线观| 九九热这里只有精品免费看| 亚洲国产aⅴ天堂久久| 欧美日韩在线网站| 欧美18hd| 免费欧美一级视频| 国产成人精品电影| 久久亚洲电影天堂| 色88888久久久久久影院野外| 国产精品网站在线播放| 国产精品观看| 高清一区二区| 视频在线观看你懂的| 一区二区三区四区在线视频 | 91国在线精品国内播放| 亚洲欧洲日韩国产| 欧美日韩国产首页在线观看| 久久综合九色综合97婷婷女人| 精品美女视频| 日本国产欧美| 亚洲天堂一区二区| 久久77777| 97干在线视频| 996这里只有精品| 国产午夜福利在线播放| 欧美12av| 91久久国产自产拍夜夜嗨| 国产精品91久久久| 精品奇米国产一区二区三区| 欧美一级片在线看| 精品国产乱码久久久久久闺蜜| 国产一区二三区| 久久精品二区亚洲w码| 在线观看视频免费一区二区三区| 国产精品22p| 永久亚洲成a人片777777| 日本一道高清一区二区三区| 国产高清一区二区三区视频 | 国产一区久久久| 日韩一区二区中文| 欧美电影在线观看一区| eeuss鲁片一区二区三区| 黄色成年人视频在线观看| 狠狠热免费视频| 成人一区二区三| 在线观看视频免费| 少妇视频在线| 91破解版在线观看| 三级黄色网址| 成人淫片免费视频95视频| 青青草国产精品| 国产区一区二区三区| 日韩精品欧美在线| 亚洲free性xxxx护士hd| 国产激情综合五月久久| 免费av在线一区二区| 激情小说激情视频| 99热99re6国产在线播放| 亚洲国产高清在线观看| av一区二区在线播放| 日本中文在线一区| av亚洲产国偷v产偷v自拍| 亚洲精品久久久蜜桃| 亚洲国产女人aaa毛片在线| 原创国产精品91| 视频在线观看一区二区| 国产成人精品一区二区三区福利| 成人黄色片免费| av中文资源在线| 国产乱码精品一区二区亚洲| 精品国产乱码久久久久久蜜坠欲下 | 91免费精品国自产拍在线不卡| 色综合欧美在线|