国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<dl id="i2alk"></dl>

<big id="i2alk"><label id="i2alk"></label></big>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

馬斯克燒60億美元難題，國內大廠有解？開源MoE模算效率黑馬登場，3.7B參數單挑Llama 3-70B

作者：新智元 2024-05-29 14:11:00

人工智能新聞

馬斯克最近哭窮表示，xAI需要部署10萬個H100才能訓出Grok 3，影響全球的大模型算力荒怎么解？昨天開源的這款MoE大模型，只用了1/19算力、1/19激活參數，性能就直接全面對標Llama 3-70B！

如今，想訓個SOTA的大模型，不僅缺數據和算力，甚至連電都不夠用了。

最近馬斯克就公開表示，因為苦于買不到足夠的芯片，xAI只能推遲Gork 2的訓練和發布。

Grok 3及更高版本，甚至需要10萬個H100，按每臺H100售價3萬美元來算，僅芯片就要花掉28億美元。

而且在未來幾年，xAI在云服務器上可能就要花費100億美元，直接逼得馬斯克自謀生路，開建起自己的「超級計算工廠」。

那么問題來了，有沒有一種可能，只用更少的算力，就讓大模型實現更高的性能？

就在5月28日，浪潮信息給業界打了個樣——全面開源MoE模型「源2.0-M32」！

簡單來說，源2.0-M32是一個包含了32個專家（Expert）的混合專家模型，總參數量達到了400億，但激活參數僅37億。

開源項目地址：https://github.com/IEIT-Yuan/Yuan2.0-M32

基于算法、數據和算力方面的全面創新，源2.0-M32的模型性能得到了大幅提升，一句話總結就是：模更強，算更優！

在業界主流的基準評測中，它的性能也能直接全面對標Llama 3-70B！

32個小模型，挑戰700億Llama3巨獸

話不多說，先看跑分：

直觀可見，在MATH和ARC-Challenge基準測試中，源2.0-M32的準確率分別為55.89和95.8，超過了Llama 3-70B。

甚至在編碼、MMLU中，M32實現了與Llama 3-70B相當的性能。

在代碼生成任務中，源2.0-M32的性能僅次于DeepseekV2和Llama 3-70B，并遠遠超過其他模型。

與DeepseekV2相比，M32模型每個token使用的激活參數不到其1/4，計算量不足其1/5，而準確率達到其90%以上的水平。

而與Llama 3-70B相比，模型激活參數和計算量的差距更大，但M32仍達到了其91%的水平。

在代碼能力上，源2.0-M32不僅通過了近3/4的HumananEval測試題，而且在經過14個樣本的學習之后，準確率更是提升到了78%。

就數學任務結果來看，源2.0-M32在MATH基準測試中得分最高。

與Mixtral-8×7B相比，M32的激活參數只有它的約0.29倍，但性能卻高出了近一倍。

在GSM8K基準上，M32的性能與Llama 3-70B非常接近，并且超過了其他模型。

比如在回答「100-200之間，所有7的倍數的和是多少」的問題中，M32和Llama 3-70B的PK結果如下。

因為對中文理解上的優勢，M32成功給出了正確答案，而Llama 3-70B就不幸翻車了。

當然，面對英文的數學題，M32也沒在怕的。

注意，這道題的題干中提出了一個要求——分母應該是有理數，M32非常準確地獲知了這一點，因而把1/√3變成了√3/3。

這就有點意思了。

下面這道題，要求計算997的的逆元，也即使997乘以某個數，讓它對100的求余為1。

源2.0-M32非常準確地理解了這個過程，而且通過一步步的迭代，準確地求解出了一個具體數值。

而看這邊的Llama 3-70B，很明顯就沒有理解題干，也沒有構建出準確的求解關系，結果也是錯的。

在多語言測試MMLU中，源2.0-M32的表現雖然不及規模更大的模型，但優于Mixtral-8×7B、Phi-3-mini和Llama 3-8B。

最后，在推理挑戰中，源2.0-M32在解決復雜科學問題方面表現出色，同樣超越了Llama 3-70B。

創新的架構和算法

源2.0-M32研發的初衷，就是為了大幅提升基礎模型的模算效率。

為了提升模型能力，很多人都會沿用當前的路徑，但在浪潮信息看來，要讓模型能力真正快速提升，就一定要從算法層面、從模型架構層面做探索和創新。

從模型名字中便可以看出，源2.0-M32是基于「源2.0」模型構建的，是包含32個專家的MoE模型。

它沿用并融合局部過濾增強的注意力機制（Localized Filtering-based Attention），通過先學習相鄰詞之間的關聯性，然后再計算全局關聯性的方法，更好地學習到了自然語言的局部和全局的語言特征。

因此，它對于自然語言的關聯語義理解更準確，模型精度就得到了提升。

論文地址：https://arxiv.org/pdf/2405.17976

圖1左展示了「源2.0」架構通過引入MoE層實現模型Scaling，其中MoE層取代了源2.0中的前饋層。

圖1右放大顯示了M32的MoE層的結構，每個MoE層由一組單獨的密集前饋網絡（FFN）作為專家組成。

專家之前的門控網絡將輸入的token，分配給總共32個相關的專家中的2個（圖中以4個專家做為示例）。

源2.0-M32結構示意圖，其中MoE層取代了源2.0中的前饋層

其中，選擇32個專家的原因是，比起8個、16個專家，32個專家的訓練損失最低，效果最好。

最終，雖然在推理過程中，32個專家每次只激活2個，激活參數只有37億，但是M32在處理邏輯、代碼方面，精度可以對標Llama 3-70B。

全新門控網絡Attention Router

在LFA之后，針對MoE結構中核心的門控網絡，團隊做了另外一個算法創新。

需要明確的是，混合專家模型由兩個核心部分組成：一是門控網絡（Gate），二是若干數量的專家（Expert）。

這當中，「門控機制」起著最關鍵的作用。

它通常會采用神經網絡，根據輸入的數據特征，為每個專家模型分配一個權重，從而決定哪些專家模型對當前任務更為重要。

簡言之，通過計算token分配給各個專家的概率，來選擇候選專家參與計算。

顯然，門控網絡的選擇機制，對于模型的推理能力、運行效率起著關鍵的作用。

當前，流行的MoE結構大都采用簡單的調度策略——將token與代表每個專家的特征向量進行點積，隨后挑選點積結果最大的專家。

然而，這一方法的弊端是，只將各個專家特征向量視為獨立的，進而忽略了它們之間的相關性，無疑會降低模型的精度。

為了攻克這一難題，源2.0-M32創新性提出了新型的算法結構：基于注意力機制的門控網絡（Attention Router），創造了一種專家間協同性的度量方法。

新策略可以在計算過程中，將輸入樣本中任意兩個token，通過一個計算步驟直接聯系起來。

這樣一來，就可以解決傳統的門控機制中，選擇兩個或多個專家參與計算時關聯性缺失的問題。

最終選擇的時候，這種策略選擇的專家不僅絕對數值會比較高，兩個專家協同的時候，自身的屬性也會更相似。

舉個通俗易懂的栗子：

就好比在一個醫院中，主任要去做手術，一定是選擇自己最這個領域最專業、且自己最熟悉的組員，這樣大家的配合程度才會更好。

果然，與經典路由結構的模型相比，Attention Router讓LLM準確率提升了3.8%。

總之，Attention Router算法可以讓使得專家之間協同處理數據的水平和效能大為提升，從而實現以更少的激活參數，達到更高的智能水平。

算力消耗只需700億Llama3的1/19

算力層面，源2.0-M32綜合運用了流水線并行+數據并行的策略，顯著降低了大模型對芯片間P2P帶寬的需求，為硬件差異較大訓練環境提供了一種高性能的訓練方法。

正是基于算法和算力上創新優化，源2.0-M32實現了在三個階段——預訓練、推理和微調過程中，超高的模算效率。

這一突破，讓MoE模型性能媲美Llama 3-70B，也顯著降低了單token訓練和推理所需的算力資源。

訓練

在智能水平相當的情況下，源2.0-M32微調/訓練時每token所需的算力資源最低——僅為22.2 Gflops/token。

相比起Llama 3-70B的420Gflops/token，源2.0-M32的需求只有其1/19。

推理

在相同條件下進行測試后可以發現，M32處理每token所需算力為7.4Gflops，而Llama 3-70B所需算力為140Gflops。

也就是說，源2.0-M32的推理算力消耗也僅是Llama 3-70B的1/19。

微調

在微調階段，M32只需消耗約0.0026PD（PetaFlops-Day），就可以完成對1萬條平均長度為1024 token的樣本進行全量微調，而Llama3則需消耗約0.05PD的算力。

更直觀來講，源2.0-M32在支持BF16精度的2顆CPU服務器上，約20小時即可完成這1萬條樣本的全量微調。

而同樣條件之下的Llama 3-70B，完成全量微調約為16天。

近50%訓練數據都是代碼

眾所周知，豐富、全面、高質量的數據集，是LLM預訓練核心。

這次，源2.0-M32使用了2萬億（2T）token進行訓練。

且代碼數據占比最高，幾乎近一半（47.46%），而且從6類最流行的代碼擴充至619類，并通過對代碼中英文注釋的翻譯，將中文代碼數據量增大至1800億token，占比約8.0%。

此外，占比第二高的預料數據來自中英文互聯網（25.18%），有效提升了模型的知識實時性與跨領域、跨語言應用效果。

之所以加入了如此之多的代碼數據，是因為其本身就具有非常清晰的邏輯性。

當模型在海量的代碼數據上完成「高強度」訓練之后，不僅可以在代碼生成、代碼理解、代碼推理上取得出色的表現，而且還能在邏輯推理、數據求解等方面獲得可觀的提升。

源2.0-M32的性能隨著訓練數據的增加而增強，且過程十分穩定

模更強，算更優，是終解！

可以看出，浪潮信息的MoE模型，在榜單上基本上達到了Llama 3的水平，甚至有些可以超越Llama 3。

然而最大的不同，就是浪潮信息顯著降低了單個token在訓練推理和微調過程中的算力消耗。

由此，大模型訓練和應用過程中的門檻也隨之降低，高智能水平的模型就能更順利地普及到千行百業當中去。

浪潮信息之所以選擇攻堅這個問題，也是他們長期「深根沃土」，服務行業客戶的深刻認知。

在浪潮信息看來，如今大模型智能水平提升，但背后所面臨的算力消耗，卻大幅攀升！

對企業落地，是極大的困難和挑戰。

由此，找到一種「模型水平高、算力門檻低」的技術方式就變得很重要。這也是我們在開頭所想強調的「模算效率」。這個指標不僅是大模型創新的關鍵，也是企業真正應用大模型的關鍵。

為什么這么說？讓我們來舉個例子。

如果Llama 3-70B的每個token推理是140GFlops，用這個實際精度除以每token的推理算力，就可以得到一個模型的算力效率。

結果顯示，Llama 3的模型精度很高，但推理時的算力開銷將極大。這也就意味著，在單位算力下，它的相對精度是比較差的。

與之形成鮮明對比的，就是Mistral的8×7B模型。雖然它和Llama 3有較大差距，但它激活專家的參數量較小，所以模算效率反而更高。

追求模算效率，因為它意義非常深遠。

比如，一個5000億的Dense模型，訓練20T token的話，需要的算力開銷是巨大的。因此，如果能獲得很高的模算效率，我們就能在更多token上，訓練更大參數的模型。

第二點，從推理上來說，模算效率也極有意義。企業類用戶的推理都需要本地化部署，需要購買算力設備。

在這種情況下，給定精度水平下的推理回報就會顯出差別。

比如Mistral 8×22B和Llama 3-70B，二者的精度差別雖然不大，但前者的模算效率就會很高，

此前，業內更加關注的是單個維度，即平均精度的提升。

而在大模型進入快速落地的當下，我們顯然就需要從模算效率上來考慮精度和開銷了。

此外，模算效率的提升也讓LLM微調的門檻和成本大幅降低，這就能讓高智能模型更加易于企業應用開發，實現智能落地。

尤其是考慮到現在，「微調」已成企業應用大模型的關鍵環節。

因為它能結合特定業務場景和專業數據對LLM完成優化，幫助LLM在專用場景中提高生成準確性、可解釋性，改善「幻覺」問題。

一如既往，全面開源

堅持開源，也是浪潮信息一直以來的傳統。

2021年，這家公司便開始布局大模型算法開發，同年首次發布了2457億參數的「源1.0」中文語言大模型，并全面開源，在業界樹立了千億模型的新標桿。

值得一提的是，「源1.0」的MFU高達44%，可見算力利用率非常高。

而當時GPT-3的MFU只有22%，也就是說有近80%的算力被浪費掉了。

彼時的浪潮信息團隊還開源近5TB的中文數據集，在國內100+個大模型廠商中，有近50個LLM的訓練中得到應用。

之后，歷時近2年研發，2023年，浪潮信息將千億參數基礎大模型從1.0升級到「源2.0」。

「源2.0」包含了三種參數規模，1026億、518億、21億，并在代碼編程、邏輯推理、數學計算等領域展現出領先的性能。

論文地址：https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf

這一次，升級后的2.0版本同樣采取了「全面開放開源」的策略，全系列模型的參數、代碼，均可免費下載和商用。

「源2.0」也在不斷進行版本更新，并針對代碼能力、數理邏輯、推理速度等方面完成深度優化。

浪潮信息還提供了豐富的預訓練、微調以及推理服務腳本，并與流行框架工具全面適配，比如LangChain、LlamaIndex等。

正如前面所述，「源2.0-M32」將繼續采用全面開源策略，又將給開源社區添磚增瓦，留下濃墨重彩的一筆。

首席科學家吳韶華表示，「當前業界大模型在性能不斷提升的同時，也面臨著所消耗算力大幅攀升的問題，這也對企業在落地應用大模型時帶來了極大的困難和挑戰」。

降低應用門檻

除了全面開源之外，浪潮信息還通過發布方便可用的工具，進一步降低了大模型應用的門檻。

今年4月，企業大模型開發平臺「元腦企智」（EPAI）正式推出，為企業LLM訓練提供了更加高效、易用、安全的端到端開發工具。

從數據準備、模型訓練、知識檢索、應用框架等系列工具全覆蓋，且支持多元算力和多模算法。

EPAI提供了非常豐富的基礎數據，規模達1億+，同時提供自動化的數據處理工具，幫助行業伙伴和企業客戶整理行業數據和專業數據，減少針對不同落地場景中出現的「幻覺」。

對于企業來說，甚至是企業小白用戶，EPAI可以幫助他們高效部署開發AI應用，能夠釋放極大的商業價值。

如今，源2.0-M32也將集成到EPAI大模型庫，幫助企業加快AI應用落地的步伐。

在算力愈發緊俏的當下，浪潮信息用「模更強算更優」的M32交出了答卷，讓整個業內為之振奮。

接下來，我們等待它的更多驚喜！

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

久久久久99精品一区| 国产精品进线69影院| 亚洲三级黄色在线观看| 依人在线免费视频| 青青草国产成人av片免费| 欧美在线中文字幕| 天堂电影一区| 亚洲免费观看在线视频| 日本一级淫片演员| 欧美三区不卡| 久久综合伊人77777| 毛片av在线| 亚洲成人动漫精品| 欧美黄色免费影院| 日韩电影在线观看网站| 国产精品爽爽爽爽爽爽在线观看| 成人国产一区二区三区精品麻豆| 欧美日韩一级大片网址| 9色视频在线观看| 久久久久久一区二区三区| 国产视频第一区| 久久久精品tv| 成年人黄色在线观看| 91麻豆国产自产在线观看亚洲| 正在播放亚洲1区| 四虎亚洲精品| 欧美午夜精品理论片a级按摩| 日本wwwwwwwzzzzz视频| 99久久婷婷国产精品综合| 鲁片一区二区三区| 欧美日韩亚洲三区| 91亚洲精品久久久| 日韩欧美视频在线播放| 性日韩欧美在线视频| 99久久99九九99九九九| 亚洲欧美日韩综合| 久久大胆人体| 精品va天堂亚洲国产| 蜜芽在线免费观看| 欧美人狂配大交3d怪物一区| 欧美12一14sex性hd| 中文字幕在线观看不卡视频| 日本中文字幕片| aaa国产一区| 日本wwww视频| 久久日韩精品一区二区五区| 国产一线二线三线女| 国产69精品久久99不卡| 亚洲一区精彩视频| 丝袜美腿成人在线| 日本欧美色综合网站免费| 一本久道久久久| 日韩亚洲视频在线| 韩国欧美国产一区| www.99热这里只有精品| 91蜜桃在线观看| 免费99热在线观看| 亚洲最色的网站| 日本福利片高清在线观看| 色婷婷av一区二区三区之一色屋| 超碰免费在线| 精品精品欲导航| 日韩成人影音| 欧美精品在线观看91| 国偷自产av一区二区三区| 欧美诱惑福利视频| 日韩精品看片| 狠狠久久综合婷婷不卡| 日本亚洲免费观看| 国产精品视频网站在线观看| 国产91富婆露脸刺激对白| 精品国产成人av在线免| 亚洲柠檬福利资源导航| 黄色小视频在线免费观看| 欧美xxxxxxxxx| 亚洲福利影视| 国产精品视频xxxx| 国产欧美高清| 97在线国产视频| 亚洲欧美日本韩国| 午夜免费视频在线国产| 亚洲欧美激情另类校园| 电影一区二区在线观看| 亚洲xxxx在线| 久久精品99国产精品日本| 黄色免费视频大全| 洋洋成人永久网站入口| a毛片在线播放| 久久精品国产一区二区三区| 九一亚洲精品| 欧美日韩在线播放一区二区| 国v精品久久久网| 一级一片免费视频| 精品久久久久久综合日本欧美| 国产亚洲字幕| 高清视频在线观看一区| 国产成人亚洲综合a∨婷婷图片| 天天色综合6| 日韩欧美激情一区| 精品国内亚洲2022精品成人| 99国产在线| 99精品欧美一区| 国产鲁鲁视频在线观看免费| 伊人一区二区三区久久精品 | 亚洲第一页在线| 中文久久电影小说| 国产亚洲精品美女久久久m| bt7086福利一区国产| 国产黄色免费在线观看| 九九热精品在线| 日韩福利电影在线| 曰韩少妇与小伙激情| 亚洲福利视频网| 一区二区三区四区在线看| 影音先锋欧美在线| 亚洲.国产.中文慕字在线| 国产麻豆一区| 狠狠色综合欧美激情| 中文字幕制服丝袜一区二区三区| 丁香高清在线观看完整电影视频| 国产精品免费久久久| 不卡的av电影在线观看| 黄色免费在线看| 国产精品情侣自拍| 久久综合久久鬼色中文字| 日本高清在线观看视频| 91精品中文在线| 欧美激情自拍偷拍| 超级碰碰久久| 欧美日韩高清在线一区| 午夜精彩视频在线观看不卡| 清纯唯美激情亚洲| 一区二区三区在线视频111| 一本一道波多野结衣一区二区| 99久久免费精品国产72精品九九| 不卡中文字幕在线| 欧美精品日韩综合在线| 四季av在线一区二区三区| 日日躁夜夜躁aaaabbbb| 最近2019中文字幕mv免费看| 奇米精品一区二区三区在线观看一| 青青草手机在线| 日本精品性网站在线观看| 91在线视频播放| 美女高潮在线观看| 日本高清久久一区二区三区| 91福利视频网站| 成人影院在线| 免费特级黄毛片| 欧美中文字幕视频在线观看| 国产午夜亚洲精品羞羞网站| 欧美韩国亚洲| 日本中文字幕一级片| 亚洲第一网站免费视频| 国产精品试看| 第一页在线观看| 99热99热| 精品视频免费在线| 狠狠色综合网| av片在线免费观看| 欧美日韩亚洲在线| 日韩免费高清av| 欧美日韩国产在线观看网站| 国产精品亚洲专一区二区三区| 久久五月精品| 国内视频一区二区| 欧美日韩一区二区三区免费看| 91精品国产91久久综合| 美女永久在线网站| 国产精品一香蕉国产线看观看| 椎名由奈av一区二区三区| 老司机成人在线| 国产毛片视频| 国产精品视频大全| 色诱视频网站一区| 黄色av一区| 国产在线观看av| 欧美一区二区视频17c| 精品裸体舞一区二区三区| 久久99热国产| 亚洲色图综合| 99热在线观看| 日本sm极度另类视频| 婷婷成人激情在线网| 午夜国产精品视频免费体验区| 日本免费在线观看| 中文精品一区二区三区| 中文字幕在线亚洲| 久久久精品人体av艺术| 亚洲第一福利社区| 久久这里精品| 欧美性xxxx69| 中文字幕视频在线免费欧美日韩综合在线看| 成人av先锋影音| 6080亚洲理论片在线观看| 久草免费在线播放| 激情五月综合色婷婷一区二区| 亚洲福利影片在线| 欧美激情在线一区二区| 在线观看国产精品入口|

<nobr id="cvcy9"></nobr>

<tr id="cvcy9"></tr>

<fieldset id="cvcy9"><i id="cvcy9"></i></fieldset>

<tfoot id="cvcy9"><i id="cvcy9"></i></tfoot>