国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型精準反哺小模型,知識蒸餾助力提高 AI 算法性能

人工智能 新聞
近年來,深度神經網絡(DNN)在工業界和學術界都取得了巨大成功,尤其是在計算機視覺任務方面,知識蒸餾作為一種有效的手段,能夠實現大模型精準反哺小模型,助力提高 AI 算法性能。

01 知識蒸餾誕生的背景

來,深度神經網絡(DNN)在工業界和學術界都取得了巨大成功,尤其是在 計算機視覺任務 方面。深度學習的成功很大程度上歸功于其具有數十億參數的用于編碼數據的可擴展性架構,其訓練目標是在已有的訓練數據集上建模輸入和輸出之間的關系,其性能高度依賴于網絡的復雜程度及有標注訓練數據的數量和質量。

相比于計算機視覺領域的傳統算法,大多數基于 DNN 的模型都因為 過參數化 而具備強大的 泛化能力 ,這種泛化能力體現在對于某個問題輸入的所有數據上,模型能給出較好的預測結果,無論是訓練數據、測試數據,還是屬于該問題的未知數據。

在當前深度學習的背景下,算法工程師為了提升業務算法的預測效果,常常會有兩種方案:

使用過參數化的更復雜的網絡,這類網絡學習能力非常強,但需要大量的計算資源來訓練,并且推理速度較慢。

集成模型,將許多效果弱一些的模型集成起來,通常包括參數的集成和結果的集成。

這兩種方案能顯著提升現有算法的效果,但都提升了模型的規模,產生了較大的計算負擔,需要的計算和存儲資源很大。

在工作中,各種算法模型的最終目的都是要 服務于某個應用 。就像在買賣中我們需要控制收入和支出一樣。在工業應用中,除了要求模型要有好的預測以外, 計算資源的使用也要嚴格控制,不能只考慮結果不考慮效率。在輸入數據編碼量高的計算機視覺領域,計算資源更顯有限,控制算法的資源占用就更為重要。

通常來說,規模較大的模型預測效果更好,但訓練時間長、推理速度慢的問題使得模型難以實時部署。尤其是在視頻監控、自動駕駛汽車和高吞吐量云端環境等計算資源有限的設備上,響應速度顯然不夠用。規模較小的模型雖然推理速度較快,但是因為參數量不足,推理效果和泛化性能可能就沒那么好。如何權衡大規模模型和小規模模型一直是一個熱門話題,當前的解決方法大多是 根據部署環境的終端設備性能選擇合適規模的 DNN 模型。

如果我們希望有一個規模較小的模型,能在保持較快推理速度的前提下,達到和大模型相當或接近的效果該如何做到呢?

在機器學習中,我們常常假定輸入到輸出有一個潛在的映射函數關系,從頭學習一個新模型就是輸入數據和對應標簽中一個 近似 未知的映射函數。在輸入數據不變的前提下,從頭訓練一個小模型,從經驗上來看很難接近大模型的效果。為了提升小模型算法的性能,一般來說最有效的方式是標注更多的輸入數據,也就是提供更多的監督信息,這可以讓學習到的映射函數更魯棒,性能更好。舉兩個例子,在計算機視覺領域中,實例分割任務通過額外提供掩膜信息,可以提高目標包圍框檢測的效果;遷移學習任務通過提供在更大數據集上的預訓練模型,顯著提升新任務的預測效果。因此 提供更多的監督信息 ,可能是縮短小規模模型和大規模模型差距的關鍵。

按照之前的說法,想要獲取更多的監督信息意味著標注更多的訓練數據,這往往需要巨大的成本,那么有沒有一種低成本又高效的監督信息獲取方法呢?2006 年的文獻[1]中指出,可以讓新模型近似(approximate)原模型(模型即函數)。因為原模型的函數是已知的,新模型訓練時等于天然地增加了更多的監督信息,這顯然要更可行。

進一步思考,原模型帶來的監督信息可能蘊含著不同維度的知識,這些與眾不同的信息可能是新模型自己不能捕捉到的,在某種程度上來說,這對于新模型也是一種“跨域”的學習。

2015年Hinton在論文《Distilling the Knowledge in a Neural Network》[2] 中沿用近似的思想,率先提出“ 知識蒸餾 (Knowledge Distillation, KD)”的概念:可以先訓練出一個大而強的模型,然后將其包含的知識轉移給小的模型,就實現了“保持小模型較快推理速度的同時,達到和大模型相當或接近的效果”的目的。這其中先訓練的大模型可以稱之為教師模型,后訓練的小模型則被稱之為學生模型,整個訓練過程可以形象地比喻為“師生學習”。隨后幾年,涌現了大量的知識蒸餾與師生學習的工作,為工業界提供了更多新的解決思路。目前,KD 已廣泛應用于兩個不同的領域:模型壓縮和知識遷移[3]。


02 Knowledge Distillation

簡介 

Knowledge Distillation 是一種基于“教師-學生網絡”思想的模型壓縮方法,由于簡單有效,在工業界被廣泛應用。其目的是將已經訓練好的大模型包含的知識——蒸餾(Distill),提取到另一個小的模型中去。那怎么讓大模型的知識,或者說泛化能力轉移到小模型身上去呢?KD 論文把大模型對樣本輸出的概率向量作為軟目標(soft targets)提供給小模型,讓小模型的輸出盡量去向這個軟目標靠(原來是往 one-hot 編碼上靠),去近似學習大模型的行為。

在傳統的硬標簽訓練過程中,所有負標簽都被統一對待,但這種方式把類別間的關系割裂開了。比如說識別手寫數字,同是標簽為“3”的圖片,可能有的比較像“8”,有的比較像“2”,硬標簽區分不出來這個信息,但是一個訓練良好的大模型可以給出。大模型 softmax 層的輸出,除了正例之外,負標簽也帶有大量的信息,比如某些負標簽對應的概率遠遠大于其他負標簽。近似學習這一行為使得每個樣本給學生網絡帶來的信息量大于傳統的訓練方式。

因此,作者在訓練學生網絡時修改了一下損失函數,讓小模型在擬合訓練數據的真值(ground truth)標簽的同時,也要擬合大模型輸出的概率分布。這個方法叫做知識 蒸餾訓練 (Knowledge Distillation Training, KD Training)。知識蒸餾過程所用的訓練樣本可以和訓練大模型用的訓練樣本一樣,或者另找一個獨立的 Transfer set。

方法詳解 

具體來說,知識蒸餾使用的是 Teacher—Student 模型,其中 teacher 是“知識”的輸出者,student 是“知識”的接受者。知識蒸餾的過程分為 2 個階段:

  • 教師模型訓練:訓練”Teacher 模型“, 簡稱為 Net-T,它的特點是模型相對復雜,也可以由多個分別訓練的模型集成而成。對“Teacher模型”不作任何關于模型架構、參數量、是否集成方面的限制,因為該模型不需要部署,唯一的要求就是,對于輸入 X, 其都能輸出 Y,其中 Y 經過 softmax 的映射,輸出值對應相應類別的概率值。
  • 學生模型訓練:訓練“Student 模型”, 簡稱為 Net-S,它是參數量較小、模型結構相對簡單的單模型。同樣的,對于輸入 X,其都能輸出 Y,Y 經過 softmax 映射后同樣能輸出對應相應類別的概率值。

由于使用 softmax 的網絡的結果很容易走向極端,即某一類的置信度超高,其他類的置信度都很低,此時學生模型關注到的正類信息可能還是僅屬于某一類。除此之外,因為不同類別的負類信息也有相對的重要性,所有負類分數都差不多也不好,達不到知識蒸餾的目的。為了解決這個問題,引入溫度(Temperature)的概念,使用高溫將小概率值所攜帶的信息蒸餾出來。具體來說,在 logits 過 softmax 函數前除以溫度 T。

訓練時首先將教師模型學習到的知識蒸餾給小模型,具體來說對樣本 X,大模型的倒數第二層先除以一個溫度 T,然后通過 softmax 預測一個軟目標 Soft target,小模型也一樣,倒數第二層除以同樣的溫度 T,然后通過 softmax 預測一個結果,再把這個結果和軟目標的交叉熵作為訓練的 total loss 的一部分。然后再將小模型正常的輸出和真值標簽(hard target)的交叉熵作為訓練的 total loss 的另一部分。Total loss 把這兩個損失加權合起來作為訓練小模型的最終的 loss。

在小模型訓練好了要預測時,就不需要再有溫度 T 了,直接按照常規的 softmax 輸出就可以了。

03 FitNet 

簡介 

FitNet 論文在蒸餾時引入了中間層隱藏映射(intermediate-level hints)來指導學生模型的訓練。使用一個寬而淺的教師模型來訓練一個窄而深的學生模型。在進行 hint 引導時,提出使用一個層來匹配 hint 層和 guided 層的輸出 shape,這在后人的工作里面常被稱為 adaptation layer。

總的來說,相當于是在做知識蒸餾時,不僅用到了教師模型的 logit 輸出,還用到了教師模型的中間層特征圖作為監督信息??梢韵氲降氖牵苯幼屝∧P驮谳敵龆四7麓竽P?,這個對于小模型來說太難了(模型越深越難訓,最后一層的監督信號要傳到前面去還是挺累的),不如在中間加一些監督信號,使得模型在訓練時可以從逐層接受學習更難的映射函數,而不是直接學習最難的映射函數;除此之外,hint 引導加速了學生模型的收斂,在一個非凸問題上找到更好的局部最小值,使得學生網絡能更深的同時,還能訓練得更快。這感覺就好像是,我們的目的是讓學生做高考題,那么就先把初中的題目給他教會了(先讓小模型用前半個模型學會提取圖像底層特征),然后再回到本來的目的、去學高考題(用 KD 調整小模型的全部參數)。

這篇文章是提出蒸餾中間特征圖的始祖,提出的算法很簡單,但思路具有開創性。

方法詳解 

FitNets 的具體做法是:

  • 確定教師網絡,并訓練成熟,將教師網絡的中間特征層 hint 提取出來。
  • 設定學生網絡,該網絡一般較教師網絡更窄、更深。訓練學生網絡使得學生網絡的中間特征層與教師模型的 hint 相匹配。由于學生網絡的中間特征層和與教師 hint 尺寸不同,因此需要在學生網絡中間特征層后添加回歸器用于特征升維,以匹配 hint 層尺寸。其中匹配教師網絡的 hint 層與回歸器轉化后的學生網絡的中間特征層的損失函數為均方差損失函數。

實際訓練的時候往往和上一節的 KD Training 聯合使用,用兩階段法訓練:先用 hint training 去 pretrain 小模型前半部分的參數,再用 KD Training 去訓練全體參數。由于蒸餾過程中使用了更多的監督信息, 基于中間特征圖的蒸餾方法比基于結果 logits 的蒸餾方法效果要好 ,但是訓練時間更久。

04 總結

知識蒸餾對于將知識從集成或從高度正則化的大型模型轉移到較小的模型中非常有效。即使在用于訓練蒸餾模型的遷移數據集中缺少任何一個或多個類的數據時,蒸餾的效果也非常好。在經典之作 KD 和 FitNet 提出之后,各種各樣的蒸餾方法如雨后春筍般涌現。未來我們也希望能在模型壓縮和知識遷移領域做出更進一步的探索。

作者簡介 

馬佳良,網易易盾高級計算機視覺算法工程師,主要負責計算機視覺算法在內容安全領域的研發、優化和創新。

責任編輯:張燕妮 來源: 網易智企技術+
相關推薦

2025-04-22 08:08:37

2023-09-27 09:00:00

大型語言模型自然語言處理

2025-04-01 09:54:09

AI算法大模型AI

2025-10-13 08:14:48

2023-10-28 13:29:27

2024-08-23 09:20:00

AI語言模型

2023-10-27 07:49:33

AI大模型

2024-12-25 08:02:17

人工智能AI運維

2024-10-31 15:00:00

AI模型

2024-11-25 11:00:00

模型訓練

2025-05-14 13:22:08

Qwen3訓練小模型

2024-01-09 14:05:15

大型語言模型RAG向量數據庫

2024-07-19 08:00:00

深度學習知識蒸餾

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2025-10-30 16:10:20

吳恩達AI應用

2025-03-03 09:16:00

Meta模型預測

2023-05-10 14:40:40

AI模型算力
點贊
收藏

51CTO技術棧公眾號

日韩午夜在线影院| 欧美激情极品| 亚洲成色www8888| 四虎av在线| 精品久久久久久久人人人人传媒 | 欧美亚洲精品日韩| 亚洲免费影视| 成人免费91在线看| 国产欧美日本| 自拍偷拍亚洲色图欧美| heyzo一本久久综合| 欧美激情精品久久久久久小说| 中文字幕制服丝袜成人av| 在线观看入口黄最新永久免费国产 | 无码人妻精品一区二区三区99v| 国产在线精品不卡| 欧美一区二区中文字幕| 91视视频在线观看入口直接观看www | 国产一区二区三区在线看| 日本午夜免费一区二区| 青青久久aⅴ北条麻妃| 噜噜噜狠狠夜夜躁精品仙踪林| 欧美综合第一页| 国产一区二区三区91| 国产伦一区二区三区色一情| 精品午夜久久福利影院| 福利精品视频| 亚洲欧美日韩专区| 精品国产综合久久| 高清视频一区二区| 在线观看黄网| 中国人与牲禽动交精品| 日韩精品一区二区三区免费观影| 一区二区精品在线观看| 亚洲男人的天堂av| 黄网站在线观| 国产精品黄色av| 国产成人精品综合在线观看| 视频免费观看| 中文字幕不卡av| 亚洲精品极品| jizzjizz中文| 亚洲天堂av女优| 亚洲第一网站| 91大神影片| 中文字幕精品av| 亚洲国产一区二区精品专区| 精品亚洲一区二区三区四区| 国产视频久久久久| 在线国产日韩| 看黄色免费网站| 精品国产欧美一区二区三区成人| 爽好多水快深点欧美视频| 日韩偷拍自拍| 国产成人免费av电影| 91亚洲国产成人精品一区二区三 | 凹凸国产熟女精品视频| 精品调教chinesegay| 欧美aaaaaaaaaaaa| 成人拍拍拍免费视频网站| 久久精品国产清自在天天线| 美女国产一区二区三区| 亚洲s色大片| 98国产高清一区| 亚洲资源在线观看| 哺乳挤奶一区二区三区免费看| 51xx午夜影福利| 精品日韩av一区二区| 亚洲大胆在线| av在线首页| 久久精品午夜一区二区福利| 欧美中文字幕一区二区三区亚洲| 仙踪林久久久久久久999| 中文在线а√天堂官网| 亚洲xxxx做受欧美| 亚洲国产精品久久艾草纯爱| 91久久偷偷做嫩草影院电| 蜜臀av色欲a片无码精品一区| 亚洲精品一区二区三区四区高清| 日韩欧美四区| 无码人妻丰满熟妇区毛片| 伊人伊成久久人综合网小说| 久久久久久黄| 毛片免费在线| 国产精品吹潮在线观看| 国产丝袜美腿一区二区三区| 免费av播放| 国产精品视频一区二区高潮| 午夜亚洲性色视频| 91露出在线| 欧美精彩一区二区三区| 精品99一区二区| 久草热8精品视频在线观看| 免费一二一二在线视频| 日本福利视频在线观看| 欧美精品一卡二卡| 台湾成人免费视频| 久久视频国产精品免费视频在线| 欧美天天视频| 传媒视频在线| 久久久久北条麻妃免费看| 日本在线不卡视频一二三区| 国产欧美日韩精品一区二区三区| 成人国产精品视频| 亚洲精品电影网| 97中文在线| 午夜精品福利一区二区蜜股av| 亚洲国产尤物| 亚洲国产日韩综合一区| 日韩精品中文字幕一区二区三区| 日本一二区不卡| 成人毛片免费在线观看| 最近中文字幕日韩精品| 另类欧美日韩国产在线| a级影片在线| 国产噜噜噜噜久久久久久久久| 国产人成一区二区三区影院| 久久日本片精品aaaaa国产| 日韩高清专区| 日本道免费精品一区二区三区| 2023国产精华国产精品| 精品一区二区三区日本| 亚洲综合精品久久| 亚洲一区站长工具| 免费观看成人高| 亚洲国产欧美一区二区三区久久| 欧美激情在线一区二区三区| 一本色道久久综合| 国产精品美女久久久久久久久久久| 日韩在线欧美在线| 欧美又粗又长又爽做受| 欧美舌奴丨vk视频| 国产精品一区二区在线观看不卡| 日韩精品免费电影| 日韩 欧美 自拍| 亚洲优女在线| 国产精品123| 自拍偷拍免费精品| 免费成人午夜视频| 精品国产三级| 亚洲国产精品激情在线观看| 欧美激情在线播放| 中文字幕第100页| 欧美变态网站| 亚洲精品视频在线| 国产精品美女主播| 五月激情在线| 国户精品久久久久久久久久久不卡| 欧美又粗又大又爽| 久久riav| 97人人在线视频| 国产一区 二区 三区一级| 国产亚洲一区精品| 欧洲黄色一级视频| 国产精品久久久久久久久久白浆| 国产精品久久久久影院色老大| 日本不卡免费高清视频| 视频黄页在线| 亚洲黄色天堂| 亚洲成人久久久久| 亚洲精品久久久久久久蜜桃臀| 91成人在线网站| 国产精品家庭影院| 国产美女91呻吟求| av男人的天堂在线| 日本欧美一区二区三区乱码| 亚洲免费av网址| 国产乱子夫妻xx黑人xyx真爽| 欧美成人午夜77777| 精品久久久一区二区| 国产尤物99| 日韩av影片| 久久精品亚洲精品国产欧美kt∨ | 中国丰满熟妇xxxx性| 欧美a在线观看| 亚洲美女屁股眼交3| 999在线免费观看视频| 91中文在线| 成人免费视频caoporn| 韩国福利视频一区| 永久免费在线| 久久精品30| 在线观看欧美日韩国产| 亚洲娇小娇小娇小| 亚洲一区二区| 精品国产一区二区三区久久影院 | 欧美一级二级三级蜜桃| 中文网丁香综合网| 精品国产亚洲一区二区三区| 一区二区高清免费观看影视大全| 国产91免费视频| 色在线视频观看| 欧美极品美女视频| 亚洲va久久久噜噜噜久久天堂| 中文在线观看免费| www.欧美日韩| 国产精品男女猛烈高潮激情| 爆操欧美美女| 超碰在线94| 国产在线观看a视频|