国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

小模型指導大模型!田淵棟等爆錘蒸餾:新方法更高效、更透明、更可控

人工智能 新聞
基于連續概念,Meta團隊新研究提出了超越「下一個token預測」語言建模新范式。更加重要的是,新方法不僅能增強原有的范式,而且比起知識蒸餾,數據量減少20%,甚至能從小模型提取概念指導更大的模型!

「下一個token預測」(next token prediction,NTP)是大語言模型(LLMs)不斷取得突破的核心技術。

但這種依賴tokenization的方法,導致LLM「嚴重偏科」。

比如,Karpathy發現一個表情包相當于53個token!

關注AI的可能也知道GPT-4o不會數字母,不知道Strawberray中有幾個字母「r」。

為了解決此類問題,最近的研究探討了超越token級信號的方法,利用更豐富的信息來訓練模型。

比如說,一次性預測多個token;在下一個token預測之前增強輸入,加入豐富的信號;或用連續的潛在表示替代離散的語言標記,提高推理效率。

Meta的下一代系統「大概念模型」,徹底超越token級別語言建模,直接在語句級別上語言建模,擺脫人類語言類型對模型性能的制約。

這次,受到近期研究發現的啟發,來自Meta的研究人員認為稀疏自編碼器(Sparse Autoencoders,SAEs)可以捕捉高層次的語義概念,在LLM中有效地隔離出有意義的潛在特征。

由于SAEs是通過稀疏性約束訓練,重構模型的隱狀態,它促使模型集中關注一組緊湊的概念維度。

這可以突出預訓練模型的概念——即支撐模型預測的核心語義方向,同時避免不必要的特征。

論文鏈接:https://arxiv.org/abs/2502.08524

新研究在多個語言建模基準和預訓練模型規模(從百萬規模到十億規模的參數模型)上進行廣泛的評估,展示了CoCoMix的有效性。

例如,在應用于1.38B參數模型時,CoCoMix在下一個token預測任務中的表現與傳統方法相當,同時減少了21.5%的訓練數據量。

此外,CoCoMix在弱監督到強監督場景中表現出顯著的提升,其中從小模型中提取的概念甚至可以作為真實標簽,用于監督大模型的訓練。

最后,通過插入壓縮的概念向量,能夠在生成過程中探查預測的概念,從而引導和控制模型。

主要方法:CoCoMix

CoCoMix是一種新的LLM預訓練框架,通過預測概念并將其混入模型的隱狀態中,以提高下一個token預測的準確性。

更高的樣本效率,在下一個token預測、知識蒸餾以及插入暫停token等任務中表現優越,同時提高可解釋性和可引導性,增強模型的可控性。

連續概念混合(CoCoMix)使用基于連續概念的語言建模框架。具體而言,CoCoMix包含三個步驟來學習和使用潛在概念:

1. 從預訓練的SAE中,提取概念并選擇顯著的概念。

2. LLM從其隱藏狀態預測這些概念。

3. 一旦預測出多個概念,就將它們壓縮成一個單一的「連續概念」,并將其「混合」到LLM隱藏狀態中。

圖1:CoCoMix的概覽。

新研究證明了CoCoMix具有更高的樣本效率,并且優于標準的下一個token預測和知識蒸餾基線。

實驗結果

CoCoMix在性能上始終優于下一個token預測和知識蒸餾。

此外,新研究表明CoCoMix可以實現弱監督到強監督的轉換,其中從較小模型中提取的概念可以指導更強(或更大)的學生模型

由于模型經過訓練可以預測其隱藏狀態中的概念,可以通過檢查概念預測來分析它關注哪些概念。通過放大或抑制預測的概念,我們還可以控制模型的輸出生成。

總而言之,CoCoMix效率更高,并且在不同模型規模下都優于下一個token預測,同時還引入了可解釋性。

具體而言,通過研究以下問題,對CoCoMix進行了實證評估:

  • CoCoMix能否提高LLM預訓練中下一個token預測的性能?(圖2和圖3)
  • 與其他知識蒸餾方法相比,CoCoMix從弱監督到強監督設置中是否表現出改進?(表1和圖4)
  • CoCoMix是否引入了模型的可解釋性和可操縱性?(圖5)
  • CoCoMix提出的各個組件對性能貢獻如何?(圖6)

提高NTP性能

圖2展示了CoCoMix與NTP(Next Token Prediction,下一個token預測)在不同訓練檢查點(checkpoint)的性能比較。每個模型包含總共1.38B個參數,都在OpenWebText數據集上進行訓練。對于CoCoMix,概念是從一個1.24億大小的模型(比基礎模型小10倍)中提取的。

顯示了以下方面的改進:(a)驗證困惑度,(b)在LAMBADA、WikiText-103上的平均困惑度,以及(c)在HellaSwag、PIQA、SIQA、Arc-Easy和WinoGrande上的平均準確率。

圖3展示了CoCoMix與NTP在不同模型大小下的性能比較。考慮了各種模型大小,包括69M、386M和1.38B個參數,并在200B個OpenWebText的token上進行訓練。評估了模型在OpenWebText驗證困惑度以及下游數據集LAMBADA、WikiText-103、HellaSwag、PIQA、SIQA、Arc-Easy和WinoGrande上的表現。

與知識蒸餾比較

表1展示了CoCoMix與下一token預測(NTP)與知識蒸餾(KD)的對比。報告了在OpenWebText(OWT)訓練集上的表現,以及在下游任務中的表現。訓練了三種不同規模的模型,其中124M模型作為教師模型。所有模型均在從OpenWebText數據集采樣的20B個token上進行訓練。加粗部分表示最佳結果。

圖4展示了CoCoMix與知識蒸餾(KD)的比較。對于弱監督到強監督設置,訓練一個386M的模型,其中KD的教師(或CoCoMix的概念提取器)是一個124M大小的模型:報告了(a)在OpenWebText、LAMABADA和WikiText上的平均困惑度,以及(b)在HellaSwag、PIQA、SIQA、Arc-Easy和WinoGrande數據集上的平均準確率。對于(c)分布偏移設置,在OpenWebMath(一個數學特定的預訓練語料庫)上訓練所有方法。

可解釋性和可操縱性

圖5是概念引導效果的定性說明。CoCoMix和GPT2模型分別是350M和124M參數的Transformer,訓練數據集為OpenWebText。對于CoCoMix,通過調整預測的概念logit值z來進行操作,而對于GPT2,通過增加特定概念索引的激活值來調整SAE概念空間c。這展示了有針對性的概念引導對各自模型輸出的影響。

各組件貢獻

圖6 對CoCoMix的分析:

(a) 歸因分數在選擇概念中的有效性。

(b) 概念預測與直接隱藏狀態預測的比較(即,用連續損失預測隱藏狀態,而不是用SAE離散化隱藏狀態)。

(c) 壓縮權重的稀疏性。

(d) 通過分析概念預測和混合的貢獻進行的組件分析。

(e) 通過比較將概念向量添加到原始隱藏狀態和混合(將概念向量與token隱藏表示交替)來選擇概念條件設定的設計。

(f) CoCoMix與暫停token(即添加可學習的tokens)的比較。使用了一個69M的transformer,并且使用來自OpenWebText數據集的20B個tokens進行訓練。

另外,值得一提是,作者中有多位華人,特別是「網紅科學家」田淵棟也參與了本次論文工作。

更為詳細的實驗設置,請參閱原文。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-17 09:30:00

AI訓練模型

2023-05-15 09:43:49

模型數據

2024-02-27 11:46:40

2023-12-07 06:51:18

AI模型

2024-03-08 12:35:41

模型數據

2024-12-19 09:48:07

2024-02-26 00:20:00

AI模型

2025-06-20 08:47:00

量子計算AI模型

2023-03-17 08:28:17

GPT-4AI

2023-06-28 18:10:27

羊駝家族大模型集體進化

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2022-06-02 10:29:23

神經網絡AI計算機

2023-09-06 13:34:31

2025-04-22 08:08:37

2025-02-28 09:15:00

2025-09-01 07:43:25

2023-09-25 10:04:37

模型AI

2023-08-04 13:42:41

2025-02-06 07:26:35

2022-12-08 13:00:10

AI性別偏見
點贊
收藏

51CTO技術棧公眾號

国产精品一区二区91| 中文字幕亚洲色图| 成人一级片网站| 玖玖视频精品| 精品免费视频| 国产精品久久久久aaaa樱花| 一区二区免费在线视频| 欧美久久综合| 欧美日韩激情视频| 北条麻妃av高潮尖叫在线观看| 久久国产三级精品| 精品少妇一区二区三区免费观看 | 国内精品不卡| 欧美特黄一级| 国产精品久久一区| 日本一二三区在线视频| 中文字幕一区二区三区乱码在线| 好吊妞无缓冲视频观看| 一本一道久久a久久| 制服丝袜av成人在线看| 在线免费观看黄色| 久久99热99| 亚洲精品在线免费| 久久www免费人成看片高清| 亚洲一二区在线| 国产综合色在线视频区| 中文精品无码中文字幕无码专区| 97色成人综合网站| 欧美激情国产日韩精品一区18| 亚洲不卡视频| 国产成人精品综合| 欧美va亚洲va日韩∨a综合色| 精品va天堂亚洲国产| 欧美日韩在线视频免费观看| 亚洲激情成人网| 亚洲精品88| 欧美老女人性生活| 香蕉av在线| 日本强好片久久久久久aaa| 亚洲 国产 欧美一区| 99精品视频在线免费播放 | 成人午夜激情视频| 欧美日韩第二页| 亚洲精品免费电影| 欧美大片aaa| 精品日韩欧美在线| 日本国产一区| 青草成人免费视频| 国产在线高潮| 亚洲精品成人网| 官网99热精品| 精品播放一区二区| 精品丝袜在线| 日韩中文字幕国产精品| 国产成人tv| 成人综合网网址| 日韩电影在线观看电影| 欧美日韩精品久久久| 美女精品导航| 粗暴蹂躏中文一区二区三区| 高清日韩av电影| 丁香激情综合国产| 色诱视频在线观看| 韩国一区二区视频| 妺妺窝人体色www在线小说| 亚洲一区在线视频| 黄色小网站在线观看| 色老头一区二区三区在线观看| 午夜视频在线观看韩国| 欧美www视频| 国产一区一区| 91日本在线观看| 国产精品资源在线观看| 免费成人看片| 欧美丰满一区二区免费视频| www.99re.av| 欧美猛男gaygay网站| 欧美电影院免费观看| 国产欧美一区二区三区不卡高清| 成人一区二区在线观看| 免费在线看v| 欧美成人精品一区| 午夜亚洲激情| 国产91福利| 亚洲精品一区二区三区不| 日本欧美肥老太交大片| 久热在线中文字幕色999舞| 色琪琪久久se色| 在线观看成人免费| 婷婷成人激情在线网| 超碰这里只有精品| 精品国产免费久久久久久尖叫| 奇米影视亚洲| 免费的av在线| 欧美视频第二页| 欧美一区二区少妇| 中文字幕自拍vr一区二区三区| 中文字幕日韩一区二区不卡 | 视频精品国内| 一区二区日本| 91福利在线看| 最新天堂资源在线资源| 亚洲精品美国一| 狂野欧美性猛交xxxx| 中文字幕日韩欧美在线视频| 狠狠噜噜久久| 男女视频网站免费观看| 久久夜色精品国产| 日韩经典一区二区| 国产鲁鲁视频在线观看免费| 国产盗摄xxxx视频xxx69| 久久久久久久综合狠狠综合| 欧美电影免费观看| 无遮挡亚洲一区| 欧美剧在线免费观看网站| 精品国产一区一区二区三亚瑟| 亚欧在线免费观看| xvideos成人免费中文版| 国产精品自拍在线| 91jq激情在线观看| 日韩资源av在线| 欧美一级欧美三级在线观看| 成人高清免费在线| 国产性生交xxxxx免费| 日韩精品一级中文字幕精品视频免费观看 | 欧美va久久久噜噜噜久久| 国产在线小视频| 欧美视频在线播放一区| 亚洲天堂中文字幕在线观看| 免费av不卡| 欧美jizzhd欧美| 三级av在线| 中文字幕成人一区| 色阁综合伊人av| 1区2区3区精品视频| 久草资源在线观看| 宅男av一区二区三区| 自拍偷拍亚洲一区| 国产91精品免费| 亚洲精品国产首次亮相| 免费高潮视频95在线观看网站| 国产av天堂无码一区二区三区| 国产69精品99久久久久久宅男| 色呦呦在线播放| 欧美一级欧美三级在线观看 | 中文字幕一区二区三区四区| 深爱激情综合| 小早川怜子影音先锋在线观看| 成人动漫av| 日韩欧美国产免费| 能看的毛片网站| 亚洲精品99999| 亚洲精品国久久99热| 日本最新不卡在线| 欧美日韩理论| 青娱乐极品盛宴一区二区| 国产特级黄色大片| 91高清在线免费观看| 亚洲欧美在线成人| 全色精品综合影院| 又黄又www的网站| 欧美 日韩 国产一区| 欧美一区二视频在线免费观看| 亚洲色图都市小说| 久久蜜桃香蕉精品一区二区三区| 欧美群妇大交群的观看方式| 99在线精品免费视频九九视| 国产淫片av片久久久久久| 亚洲国产成人porn| 国产黄色91视频| 欧美日韩亚洲一区三区| 久久不见久久见国语| 中文字幕久久精品一区二区| 2021中文字幕在线| 欧美xxxx免费虐| 嫩草在线视频| 瑜伽美女视频| 99re6在线视频| 欧美大片在线观看一区| 亚洲免费看片| 日韩毛片免费观看| 亚洲综合在线电影| 中文av在线全新| 三级中文字幕在线观看| 高h视频在线播放| 中中文字幕av在线| 中文字幕av一区二区三区佐山爱| 免费观影入口看日本视频| 欧美视频1区| 欧洲精品毛片网站| 久久亚洲电影天堂| 国产精品激情av电影在线观看 | 91在线高清观看| 国产精品夜夜嗨| 日韩精品中文字幕有码专区| japanese在线播放| 日韩三级在线| 伊人久久国产| 91se在线观看| 免费观看亚洲视频|