国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

北大林宙辰團隊全新混合序列建模架構MixCon:性能遠超Mamba

人工智能 新聞
MixCon 作為創新的混合序列建模架構,通過整合多種技術,在處理復雜動態序列時具有高效的計算效率,在各項任務中展現出顯著優勢,能高效處理長序列、內存使用低且吞吐量高,具有高可擴展性和實用性。

在自然語言處理、語音識別和時間序列分析等眾多領域中,序列建模是一項至關重要的任務。然而,現有的模型在捕捉長程依賴關系和高效建模序列方面仍面臨諸多挑戰。

因此,北京大學林宙辰、徐鑫提出了一種全新混合序列建模架構 ——MixCon,它為解決這些難題帶來了創新性的方案。經實驗驗證,其性能遠超 Mixtral、Mamba 和 Jamba。論文已在 European Conference on Artificial Intelligence (ECAI) 2024 上發表。

  • 論文標題:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling
  • 論文地址:https://zhouchenlin.github.io/Publications/2024-ECAI-MixCon.pdf

一、現有序列建模模型的困境

線性注意力 Transformer

線性注意力 Transformer 旨在通過近似注意力機制來提高原始 Transformer 模型的效率,將計算復雜度從圖片降低到圖片圖片,但在處理長序列時可能會面臨性能下降和計算開銷增加的問題。

例如,早期利用局部敏感哈希方案雖降低復雜度,但引入大常數因子;近期通過改變計算順序等方法近似 Softmax 函數,但仍存在性能不如 Softmax 注意力且可能增加額外開銷的情況。

線性 RNN 模型

線性 RNN 模型如 Mamba 等通過將序列表示為狀態空間并利用掃描操作,以線性時間復雜度提供了序列建模的新解決方案。

然而,它們可能缺乏復雜序列建模任務所需的適應性和動態特性,并且像傳統序列模型一樣,缺少反饋機制和自適應控制。

MoE 模型

MoE 模型通過結合專家模塊,能有效處理長序列并保持計算效率,根據輸入數據自適應選擇專家模塊。

但 MoE 模型的專家模塊稀疏激活可能導致訓練穩定性問題,部分參數不常使用降低參數效率,在處理長序列時可能在計算效率和訓練穩定性方面面臨挑戰,且對動態變化適應性不足。

二、MixCon 的核心架構與技術

Conba 模型架構

1. 狀態空間方程

Conba 將序列建模任務表示為狀態空間系統,狀態空間定義為圖片圖片,其中圖片圖片圖片分別為時間步圖片的狀態、輸入和輸出,圖片圖片是非線性函數,可由神經網絡近似。

圖片其中圖片圖片是可學習參數矩陣。圖片圖片是可學習參數矩陣。

為處理長序列,Conba 采用選擇性狀態空間機制圖片,以及引入延遲狀態圖片和動態狀態縮放機制圖片

最后狀態空間系統表示為來捕捉長程依賴和適應序列動態變化。

2. 自適應控制機制

設計目標是最小化實際輸出圖片和期望輸出圖片之間的跟蹤誤差圖片

控制增益矩陣圖片通過圖片更新,其中圖片是跟蹤誤差向量圖片的 2 范數,圖片是學習率。

3. 實施細節

4. 模型架構圖如下所示:

圖片

MixCon 模型架構

MixCon 是結合注意力機制的 Transformer 層、Conba 層和 MoE 組件的創新混合解碼器架構。

在內存使用方面,通過平衡注意力和 Conba 層,相比 Mamba 可將 KV 緩存減少 32 倍。例如,在 256K 令牌上下文環境中,MixCon 仍能保持較小的 KV 緩存優勢(如表 1 所示)。

圖片

在吞吐量方面,處理長序列時,Conba 層計算效率更高,增加其比例可提高整體吞吐量。

基本配置單位是 MixCon 塊,由 Conba 或注意力層組合而成,每個層包含注意力模塊或 Conba 模塊,后接 MLP 或 MoE 層。MixCon 中的 MLP 層被 MoE 層替換,以增加模型容量同時保持較低計算負載。

對于 Conba 層實施,采用 RMSNorm 等技術,模型詞匯量為 256K,使用 BPE 進行訓練,每個數字為單獨令牌。

模型架構圖如下所示:

圖片

三、MixCon 的實驗與評估

實施細節

選擇特定配置適應單塊 80GB A800 NVIDIA GPU 的計算能力,實現質量和吞吐量的優化。

序列由 4 個 MixCon 塊組成,每個 MixCon 塊含 8 層 L = 8,注意力層和 Conba 層比例為 2:6 (a:c = 2:6),每隔一層 (e = 2) 用 MoE 替換 MLP 模塊,模型有 16 個專家 (n = 16),每個令牌使用 2 個頂級專家 (K = 2)。

上下文長度分析

MixCon 在單塊 80GB A800 GPU 上的最大上下文長度是 Jamba 的兩倍、Mixtral 的四倍、Llama - 2 - 70B 的十四倍(如圖 3 所示)。

圖片

吞吐量分析

1. 配置一:考慮不同批大小,在單塊 A800 80GB GPU(int8 量化)、8K 上下文長度下生成 512 個輸出令牌,MixCon 吞吐量是 Mixtral 的三倍、Jamba 的兩倍(如圖 4 所示)。

圖片

2. 配置二:單批次(批大小 = 1)、四塊 A800 GPUs(無量化)、不同上下文長度下生成 512 個輸出令牌,處理 128K 令牌時,MixCon 吞吐量是 Jamba 的 1.5 倍、Mixtral 的 4.5 倍(如圖 5 所示)。

圖片

數據集評估

本文在一系列標準學術基準測試中評估 Conba 性能,包括常識推理任務(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、閱讀理解任務(如 BoolQ、QuAC)、聚合基準測試(如 MMLU、BBH),采用不同的學習策略。

MixCon 性能與類似或更大規模的先進公開模型相當或更優,盡管總參數比 Llama - 2 少,但作為稀疏模型,其活躍參數僅 5B,處理長序列時 KV 緩存僅需 2GB,而 Mixtral 需 32GB(如表 2 所示)。

圖片

消融實驗

展示注意力和 Conba 層結合的優勢及最佳比例和交織技術。純 Conba 模型在上下文學習有困難,Attention - Conba 混合模型有類似純 Transformer 模型的上下文學習能力。

以 HellaSwag(10 - shot)、WinoGrande(5 - shot)、Natural Questions(NQ,5 - shot)為指標,MixCon 表現穩健(如表 3 所示),MixCon(無 MoE)訓練過程損失更低(如圖 6 所示)。

圖片

長上下文評估

利用問答基準測試評估 MixCon 處理長上下文能力,使用 L - Eval 中最長上下文數據集的五個數據集,以少樣本格式(每個實驗用三個例子)進行實驗。

在 NarrativeQA、LongFQA、Natural Questions(NQ)、CUAD 等數據集上評估,MixCon 在多數數據集上優于 Mixtral 和 Jamba,平均性能優越,且在長上下文任務中具有更好的吞吐量(如表 4 所示)。

圖片

結合注意力和 Conba 的優勢及混合專家的影響

1. 注意力和 Conba 比例研究

用 13 億參數模型在 2500 億令牌上訓練,MixCon 性能優于純注意力或純 Mamba,注意力和 Conba 層比例為 2:6 或 1:7 時性能差異小(如表 5 所示)。

2. 混合專家的影響

當在 MixCon 架構的大規模情境(5B 參數,在 50B 令牌上訓練)中應用 MoE 技術時,性能有顯著提升(如表 6 所示)。

圖片

四、MixCon 的優勢與展望

MixCon 作為創新的混合序列建模架構,通過整合多種技術,在處理復雜動態序列時具有高效的計算效率,在各項任務中展現出顯著優勢,能高效處理長序列、內存使用低且吞吐量高,具有高可擴展性和實用性。然而,它仍有改進空間,如進一步優化狀態空間表示、長序列的自適應控制、特定領域微調以及訓練算法等。

總體而言,MixCon 為序列建模提供了新的解決方案,在復雜序列處理方面表現出色,為 NLP 及其他領域的應用開辟了新道路。未來,我們期待它在更多領域發揮更大的作用,為技術發展帶來更多的突破和創新。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-15 12:49:00

數據模型

2025-02-14 10:38:52

2024-05-13 10:38:08

2019-01-10 14:49:14

開源技術 工具包

2024-07-15 08:20:00

2025-12-01 08:50:00

AI大模型數據

2025-03-10 08:47:00

模型AI訓練

2025-03-24 13:04:12

2024-09-23 08:20:00

模型訓練

2021-09-27 09:48:52

神經網絡AI目標檢測

2024-12-23 15:30:00

模型AI測試

2013-03-06 09:33:48

云計算云安全混合云

2024-09-02 08:45:00

模型生成

2024-11-27 15:00:00

2010-07-01 16:38:28

UML序列圖

2023-12-05 13:38:11

架構模型

2024-04-02 09:03:43

TransformeMambaRNN

2025-03-27 12:20:25

2025-03-11 09:42:00

2022-02-14 06:24:30

網絡安全Fortinet防火墻
點贊
收藏

51CTO技術棧公眾號

日韩精品视频在线观看网址| 欧美性一级生活| 国产97在线观看| 亚洲成人不卡| 欧美中文字幕一二三区视频| 台湾十八成人网| 99国产精品久久久| 亚洲午夜激情| 久久在线91| 国产女人水真多18毛片18精品| 免费一区二区| 欧美成人全部免费| 91在线亚洲| 亚洲第一视频网| 一二三四区在线观看| 欧美日韩二区三区| 国产视频网址在线| 欧美视频二区36p| 撸视在线观看免费视频| 亚洲sss视频在线视频| h精品动漫在线观看| 一区二区三区成人在线视频| 涩涩漫画在线观看| 最新日韩在线视频| 国产香蕉视频在线观看| 亚洲国产乱码最新视频| 一区二区三区高清在线视频| 色综合av在线| 你懂的免费在线观看| 欧美情侣在线播放| av网址在线| 日韩国产激情在线| 日韩免费在线电影| 国产+人+亚洲| 日本久久精品| 久久国产精品免费一区| 美美哒免费高清在线观看视频一区二区 | 热久久免费国产视频| 青青视频一区二区| 国产精品色悠悠| 欧美日本精品| 另类视频在线观看+1080p| 国产精品日韩| 人妻av无码专区| 国产亚洲1区2区3区| 嫩草视频在线观看| 欧美日韩aaaaaa| www.综合网.com| 久久99热精品| 欧美 亚欧 日韩视频在线| 先锋影音亚洲资源| 国产欧美日韩精品a在线观看| 91短视频在线观看| 欧美喷潮久久久xxxxx| 青青青免费在线视频| 欧美成人黄色小视频| 91亚洲国产| 欧美一区激情视频在线观看| 99视频有精品| 欧美人体大胆444www| 亚洲欧美一区二区激情| 亚洲自拍都市欧美小说| 欧美日韩在线精品| 国产精品午夜久久| 黄网站在线免费| 久久国产精彩视频| 欧美精品1区| 蜜臀av色欲a片无码精品一区| 国产精品久久毛片| 4438x成人网全国最大| 欧美国产精品日韩| 久久久久国产精品午夜一区| 手机在线免费观看毛片| 欧美日韩国产一二三| 国产精品一区二区三区www| 国产精品99久久久久久久vr| www.av中文字幕| 欧美午夜xxx| 国产一区二区三区四区五区3d| 国产精品久久久久999| 蜜桃在线一区二区三区| 免费福利影院| 日韩电视剧在线观看免费网站| 免费一区二区| 老司机av福利| 色综合天天综合狠狠| 亚洲高清国产拍精品26u| 久久久久se| 亚洲丝袜自拍清纯另类| 澳门成人av网| 国产在线精品二区| 综合精品久久久| 电影网一区二区| 国产九色精品| 一区二区三区高清不卡| 欧美黄色a视频| 日韩欧美精品久久| 欧美午夜精品久久久久久人妖| 国内不卡的一区二区三区中文字幕| 久久精品五月婷婷| 午夜在线成人av| 国产精品男女| 国产九色porny| 日韩女优毛片在线| 国产一区二区三区免费在线| 高清av电影在线观看| 色婷婷香蕉在线一区二区| 国产不卡一二三区| 国产日韩成人内射视频| 一区二区三区蜜桃| 精品久久影视| av在线视屏| 成人欧美一区二区三区在线观看| 亚洲国产精品高清| 最近国产精品视频| 欧美丝袜一区| 天堂在线免费av| 国产美女主播一区| 午夜美女久久久久爽久久| 国产91高潮流白浆在线麻豆| 日韩一区精品视频| 中出一区二区| 国产精品日韩精品欧美精品| 国产成人精品无码播放| 日韩精品在线播放| 鲁大师成人一区二区三区| 91福利在线视频| 91青青草免费观看| 午夜精品aaa| 婷婷中文字幕一区| 免费毛片在线| 国产精品一区视频网站| 9191久久久久久久久久久| 国产视频一区欧美| 影音先锋男人资源在线| 先锋影音一区二区三区| 亚洲精品videossex少妇| 免费人成黄页网站在线一区二区| 先锋成人影音| 91国内揄拍国内精品对白| 亚洲六月丁香色婷婷综合久久| 牲欧美videos精品| 宅男视频免费在线观看视频| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 国产99久久精品一区二区永久免费| 国产欧美中文在线| 四虎5151久久欧美毛片| 欧美aaa一级| 91传媒视频在线观看| 欧美人成免费网站| 六月丁香婷婷久久| 久久免费影院| www.1024| 国产一区视频在线| 欧美日韩一级黄| 校园春色综合网| 成人在线黄色电影| 国产美女三级视频| 77777亚洲午夜久久多人| 午夜精品久久久久久久99水蜜桃| 欧美日韩岛国| 激情网站在线| 欧美性大战久久久久xxx| 97精品久久久| 欧美视频在线观看免费| 老牛国产精品一区的观看方式| 影视一区二区三区| 污色网站在线观看| 成人国产在线激情| 欧美精品一区二区三| 久久蜜臀中文字幕| 欧洲福利电影| 天堂av中文在线| 黄色国产小视频| 国产精品男女猛烈高潮激情| 一本色道久久加勒比精品| 久久99精品久久只有精品| 视频一区国产| 91社区在线| 极品粉嫩国产18尤物| 国产精品视频男人的天堂 | 91日韩视频在线观看| 成人免费视频网址| 精品无人国产偷自产在线| 中文字幕一区三区| 久久三级福利| 私拍精品福利视频在线一区| av文字幕在线观看| 亚洲欧美久久久久| 亚洲mv在线看| 日韩美女在线观看一区| 精品国产百合女同互慰| 最新国产精品久久精品| 久久九九国产| 国产欧美日韩精品高清二区综合区| 中文字幕在线观看播放| 奇米影音第四色| 先锋影音日韩| 国产精品久久91| 亚洲免费一级电影|