国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型面經——MoE混合專家模型總結 原創

發布于 2024-10-17 11:31
瀏覽
0收藏

?本篇將介紹MoE(Mixture of Experts,混合專家模型)相關面試題。

以下是一個快捷目錄:

一、MoE介紹

二、MoE出現的背景

三、有哪些MoE模型

四、介紹稀疏 MoE 層

五、介紹門控網絡或路由

六、為什么門控網絡要引入噪聲呢

七、如何均衡專家間的負載

八、“專家”指什么

九、專家的數量對預訓練有何影響?

十、什么是topK門控

十一、MoE模型的主要特點

十二、MoE和稠密模型的對比

十三、MoE的優勢

十四、MoE的挑戰

十五、微調MoE的方法

十六、MoE的并行計算

回答

一、MoE介紹

"Mixture of Experts"(MoE)是一種機器學習模型,特別是在深度學習領域中,它屬于集成學習的一種形式。MoE模型由多個專家(experts)和一個門控網絡(gating network)組成。每個專家負責處理輸入數據的不同部分或不同特征,而門控網絡則負責決定每個輸入應該由哪個專家來處理。

例如,在下圖中,“More”這個 token 被發送到第二個專家,而“Parameters”這個 token 被發送到第一個專家。

大模型面經——MoE混合專家模型總結-AI.x社區

二、MoE出現的背景

本質上來說就是一種高效的 scaling 技術,用較少的 compute 實現更大的模型規模,從而獲得更好的性能。

三、有哪些MoE模型

Switch Transformers、Mixtral、GShard、DBRX、Jamba DeepSeekMoE 等等。

以Mixtral為例

Mixtral 是一個稀疏的專家混合網絡。它是一個decoder-only的模型,其中前饋塊從一組 8 個不同的參數組中選擇。在每一層,對于每個令牌,路由器網絡選擇其中兩個組(“專家”)來處理令牌并附加地組合他們的輸出。

大模型面經——MoE混合專家模型總結-AI.x社區

混合專家層

這種技術在控制成本和延遲的同時增加了模型的參數數量,因為模型只使用每個令牌總參數集的一小部分。具體來說,Mixtral 總共有 46.7B 個參數,但每個令牌只使用 12.9B 個參數。因此,它以與 12.9B 型號相同的速度和相同的成本處理輸入和生成輸出。

Mixtral 基于從開放 Web 中提取的數據進行預訓練——同時培訓專家和路由器。

四、介紹稀疏 MoE 層

稀疏 MoE 層一般用來替代傳統 Transformer 模型中的前饋網絡 (FFN) 層。MoE 層包含若干“專家”(例如 8 個),每個專家本身是一個獨立的神經網絡。在實際應用中,這些專家通常是前饋網絡 (FFN),但它們也可以是更復雜的網絡結構,甚至可以是 MoE 層本身,從而形成層級式的 MoE 結構。

五、介紹門控網絡或路由

門控網絡接收輸入數據并執行一系列學習的非線性變換。這一過程產生了一組權重,這些權重表示了每個專家對當前輸入的貢獻程度。通常,這些權重經過softmax等函數的處理,以確保它們相加為1,形成了一個概率分布。這樣的分布表示了在給定輸入情境下每個專家被激活的概率。一個典型的門控函數通常是一個帶有 softmax 函數的簡單的網絡。

六、為什么門控網絡要引入噪聲呢

為了專家間的負載均衡。也即防止一句話中的大部分token都只有一個專家來處理,剩下的七個專家(假設一共八個專家)“無所事事”。

七、如何均衡專家間的負載

引入噪聲、引入輔助損失(鼓勵給予所有專家相同的重要性)、引入隨機路由、設置一個專家能處理的token數量上限

八、“專家”指什么

一個“專家”通常是前饋網絡 (FFN)。數據經過門控網絡選擇后進入每個專家模型,每個專家根據其設計和參數對輸入進行處理。每個專家產生的輸出是對輸入數據的一種表示,這些表示將在后續的步驟中進行加權聚合。或者通過單個專家模型進行處理。

九、專家的數量對預訓練有何影響?

增加更多專家可以提升處理樣本的效率和加速模型的運算速度,但這些優勢隨著專家數量的增加而遞減 (尤其是當專家數量達到 256 或 512 之后更為明顯)。同時,這也意味著在推理過程中,需要更多的顯存來加載整個模型。值得注意的是,Switch Transformers 的研究表明,其在大規模模型中的特性在小規模模型下也同樣適用,即便是每層僅包含 2、4 或 8 個專家。

十、什么是topK門控

選擇前k個專家。為什么不僅選擇最頂尖的專家呢?最初的假設是,需要將輸入路由到不止一個專家,以便門控學會如何進行有效的路由選擇,因此至少需要選擇兩個專家。

十一、MoE模型的主要特點:

  • 靈活性:每個專家可以是不同類型的模型,例如全連接層、卷積層或者遞歸神經網絡。
  • 可擴展性:通過增加專家的數量,模型可以處理更復雜的任務。
  • 并行處理:不同的專家可以并行處理數據,這有助于提高模型的計算效率。
  • 動態權重分配:門控網絡根據輸入數據的特點動態地為每個專家分配權重,這樣模型可以更加靈活地適應不同的數據。
  • 容錯性:即使某些專家表現不佳,其他專家的表現也可以彌補,從而提高整體模型的魯棒性。

十二、moe和稠密模型的對比

1、預訓練

  相同計算資源,MoE 模型理論上可以比密集模型更快達到相同的性能水平。

2、推理

  moe:高顯存,高吞吐量;

  稠密模型:低顯存,低吞吐量

十三、moe的優勢

   1、訓練優勢:預訓練速度更快;

   2、推理優勢:推理速度更快

十四、moe的挑戰

   1、訓練挑戰:微調階段,泛化能力不足,容易過擬合

   2、推理挑戰:對顯存的要求更高

十五、微調moe的方法

   1、凍結所有非專家層的權重,專門只訓練專家層

   2、只凍結moe層參數,訓練其它層的參數

十六、moe的并行計算

大模型面經——MoE混合專家模型總結-AI.x社區

圖片來源:b站 算法豬立業


參考資料

??https://blog.csdn.net/2201_75499313/article/details/136412787??

??https://www.zhihu.com/question/634844209/answer/3467132890??

??https://zhuanlan.zhihu.com/p/674698482??

???https://b23.tv/jCL0r4N??

?

文轉載自公眾號瓦力算法學研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/b_FeWWHcwXPxAC_SL6ABfg???

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
666欧美在线视频| 老汉色影院首页| 成人一区二区免费视频| 亚洲伊人精品酒店| 91吃瓜在线观看| 久久av综合网| 男人天堂av片| 9999精品免费视频| 欧美人妖在线| 久久亚洲综合av| 中文字幕在线播放不卡一区| 亚洲不卡av一区二区三区| 精品中文字幕乱| 国产尤物91| xxxx69视频| 国产免费成人| 这里精品视频免费| 国产在线观看免费| 国产拍揄自揄精品视频麻豆| 超碰97免费观看| 久久精品青草| 日本欧美中文字幕| 国产精品1区| 亚洲人成伊人成综合网久久久| 国产女主播在线写真| 亚洲激情自拍偷拍| 免费看污黄网站| 国产网站一区二区| 免费在线观看视频a| 国产在线一二| 成人精品在线| 久久嫩草精品久久久精品| 久青草国产97香蕉在线视频| 色噜噜色狠狠狠狠狠综合色一| 香港日本韩国三级| 日本中文字幕不卡| 亚洲国产精品资源| 人人爽人人av| xfplay精品久久| 婷婷免费在线观看| 亚洲免费三区一区二区| 97在线影院| 欧洲av在线精品| 亚洲一区二区在| 国产美女福利在线| 国产精品嫩草影院av蜜臀| 国产精品极品在线| 国产在线超碰| www成人在线观看| 99精品国产99久久久久久福利| 国产精品1区二区.| 亚洲欧美在线磁力| 国产网站在线免费观看 | 欧美性生活一区| 最近中文视频在线| 亚洲国产精品人人做人人爽| 美女网站视频黄色| 亚洲高清视频在线| 高清全集视频免费在线| 欧美成人福利视频| 精品视频在线一区| 日韩女在线观看| 久久久久久亚洲精品杨幂换脸| 性欧美精品一区二区三区在线播放 | 欧美激情第三页| 国产探花在线精品一区二区| 91影视免费在线观看| 国产一区二区在线视频| 午夜影院免费看| 亚洲第一二三四五区| 亚洲精品小区久久久久久| 精品日产一区2区三区黄免费| 成人综合婷婷国产精品久久免费| 伊人75在线| 色老头一区二区三区| 欧美激情偷拍自拍| 国产主播自拍av| 欧美一区二区三区在线看| 超碰97久久| 在线一区日本视频| 色哟哟在线观看一区二区三区| 成黄免费在线| 久久久久久久久电影| 天堂网在线观看国产精品| 国产精品久久久久7777| 精品国产成人av| 日韩av一级| 色狠狠久久av五月综合|| 亚洲午夜精品17c| 国产在线视频欧美一区| 中文有码久久| 欧美一区在线视频| 99久久婷婷国产综合精品青牛牛| 日韩欧美视频一区二区三区四区| 在线这里只有精品| 国产乱人伦丫前精品视频| 日韩a在线播放| 欧美成人免费一级人片100| www.日韩在线| 欧美黑人粗大| 亚洲国产精品一区二区第一页| 自拍偷自拍亚洲精品播放| 婷婷视频一区二区三区| 黄色三级中文字幕| 亚洲欧美成人一区二区在线电影| 日韩和欧美的一区| 亚洲一区二区欧美| 日韩激情av| 视频一区视频二区视频三区高| 精品久久中文字幕久久av| 欧美自拍视频| 你懂的在线看| 亚洲一区不卡在线| 日韩国产精品视频| 亚洲成人久久影院| 久草热视频在线观看| 激情综合色播激情啊| 91精品影视| 成人亚洲成人影院| 91视频婷婷| 伊人精品在线观看| 国产精品国产三级国产专播品爱网| 成人激情开心网| 成人午夜视屏| 美女毛片在线看| 无码人妻h动漫| 日产精品高清视频免费| 国内精品久久影院| 欧美三日本三级三级在线播放| 欧美天堂社区| av人人综合网| 嫩草研究院在线| www.夜夜爽| 在线一区日本视频| 成人激情直播| 国产成人一区二区三区| 亚洲欧美www| 欧美午夜精品久久久久久浪潮| 久久久综合视频| 激情六月婷婷综合| 亚洲日韩视频| 久久综合成人| 色偷偷色偷偷色偷偷在线视频| 日本18视频网站| 黄色一级视频在线播放| 国产一级特黄a大片99| 91成人性视频| 2020久久国产精品| 欧美sm美女调教| 欧美日韩国产精品一区二区不卡中文| 久久夜色精品一区| 91在线免费视频观看| 99久久精品国产导航| 国产高清精品久久久久| 美女脱光内衣内裤视频久久网站| 国产精品丝袜xxxxxxx| 日韩激情图片| 在线成人直播| 99九九热只有国产精品| 欧美成人milf| 欧美一区在线看| 国产亚洲精品美女久久| 日韩五码电影| 日韩超碰人人爽人人做人人添| 国产视频网站一区二区三区| 白嫩亚洲一区二区三区| 99久热这里只有精品视频免费观看| 6080亚洲理论片在线观看| 日韩一二三区在线观看| 精品久久影院| 免费观看日韩电影| 国产精品色眯眯| 图片区小说区国产精品视频| 亚洲欧美国产毛片在线| 欧美喷潮久久久xxxxx| 欧美va在线播放| 欧美激情中文网| 成人h视频在线观看| 欧美国产一区二区在线| 欧美aⅴ在线观看| 欧美性色综合网| 91蜜桃网址入口| 亚洲综合在线五月| 精品国产第一区二区三区观看体验| 亚洲人成在线观看| 91九色精品视频| 国产精品视频二| 91伦理视频在线观看| a级大胆欧美人体大胆666| 中文字幕在线高清| 99ri日韩精品视频| 精品一区二区免费在线观看| 亚洲品质自拍视频| 国产亚洲aⅴaaaaaa毛片| 日本伊人精品一区二区三区介绍| 天天综合狠狠精品| 午夜爽爽视频| 日韩精品av| 久久久国产亚洲精品| 精品欧美激情精品一区|