国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

如何在英特爾? 平臺上實現高效的大語言模型訓練后量化

企業動態
提升 SmoothQuant 量化方法的效力。

作者:英特爾公司 陸彤、何欣、郭恒、程文華、王暢、王夢妮、沈海豪

本文介紹了可提升大語言模型的訓練后量化表現的增強型 SmoothQuant 技術,說明了這項技術的用法,并證明了其在準確率方面的優勢。此方法已整合至英特爾? Neural Compressor(1) 中。英特爾? Neural Compressor 是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜索等多種常用模型壓縮技術的開源 Python 庫。目前,諸如 TensorFlow、英特爾? Extension for TensorFlow(2) 、PyTorch、英特爾? Extension for PyTorch(3) 、ONNX Runtime 和 MXNet等主流框架,都能與之兼容。

英特爾? Neural Compressor 已經支持多款英特爾? 架構的硬件,比如英特爾? 至強? 可擴展處理器(4) 、英特爾? 至強? CPU Max 系列(5) 、英特爾? 數據中心 GPU Flex 系列(6) 英特爾? 數據中心 GPU Max 系列(7) 。本文涉及的實驗基于第四代英特? 至強? 可擴展處理器(8) 進行。

大語言模型

大語言模型 (Large Language Model, LLM) 需基于海量數據集進行訓練,可能擁有數十億權重參數。其先進的網絡結構和龐大的參數量,使它們能夠很好地應對自然語言本身的復雜性。完成訓練后的大語言模型,可針對各種下游的自然語言處理 (NLP) 和自然語言生成 (NLG) 任務進行調優,讓其更適合對話式聊天機器人(如 ChatGPT)、機器翻譯、文本分類、欺詐檢測和情感分析等任務場景。

大語言模型部署面臨的挑戰

大語言模型在執行自然語言處理和自然語言生成任務方面表現出色,但其訓練和部署頗為復雜,主要面臨以下挑戰:

  1. AI 與內存墻(9) 瓶頸問題:算力每兩年提高 3.1 倍,內存帶寬卻只提高 1.4 倍;
  2. 網絡帶寬挑戰:訓練大語言模型需要采用分布式系統,這對網絡帶寬提出了較高要求;
  3. 系統資源有限:訓練后的模型往往會部署在算力和內存資源均有限的系統上。

因此,采用訓練后量化的方法來為大語言模型瘦身,對于實現低時延推理至關重要。

大語言模型的量化

量化是一種常見的壓縮操作,可以減少模型占用的內存空間,提高推理性能。采用量化方法可以降低大語言模型部署的難度。具體來說,量化是將浮點矩陣轉換為整數矩陣:

其中 X_fp32、S 和 Z 分別為輸入矩陣、比例因子和整數零點。

有關每通道 (per-channel) 量化策略雖然可能會減少量化損失,但不能用于激活值量化的原因,請參看 SmoothQuant 相關文檔(10) 。不過,激活值量化誤差損失卻是導致模型量化準確率下降的重要因素。為此,人們提出了很多方法來降低激活值量化損失,例如:SPIQ(11) Outlier Suppression(12) SmoothQuant(13) 。這三種方法思路相似,即把激活值量化的難度轉移到權重量化上,只是三者在轉移難度的多少上有所不同。

增強型 SmoothQuant

SmoothQuant 引入了一個超參數 α 作為平滑因子來計算每個通道的量化比例因子,并平衡激活值和權重的量化難度。

其中 j 是輸入通道索引。

對于OPT 和 BLOOM 等大多數模型來說,α=0.5 是一個能夠較好實現權重和激活值量化難度分割的平衡值。模型的激活異常值越大,就越需要使用更大的 α 值來將更多的量化難度轉移到權重上。

原始的 SmoothQuant 旨在通過針對整個模型使用一個固定值 α 來分割權重和激活值的量化難度。然而,由于激活異常值的分布不僅在不同模型之間存在差異,而且在同一模型的不同層之間也不盡相同,因此,本文推薦使用英特爾? Neural Compressor 的自動調優能力,逐層獲取最佳 α 值。

相關方法包括以下五個主要步驟(偽代碼如下所示):

  1. 通過特殊的回調函數 register_forward_hook 捕獲 (hook) 模型各層的輸入和輸出值。
  2. 根據用戶定義的 α 范圍和步長生成一個 α 值列表。
  3. 根據給定的 α 值重新計算平滑因子并調整參數(權重值和激活值)。
  4. 對權重執行每通道量化與反量化 (quantization_dequantization),對輸入值執行每張量 (per-tensor) 量化與反量化,以預測與給定 α 值對應的每層輸出值。
  5. 計算相對實際輸出值的均方損失,將調整后的參數恢復回來,并保存每層的最佳 α 值。

本文提出的方法支持用多個標準(如最小值、最大值和平均值)來確定 Transformer 塊的輸入層歸一化 (LayerNorm) 操作的 α 值。實驗發現,將 α 范圍設為 [0.3, 0.7],步長設為 0.05,對大多數模型來說都能達到很好的平衡。

這一方法有兩個顯著特點:一是全自動化,二是比原始方法支持的融合模式多。

下圖提供了在 BLOOM-1b7 模型上執行 SmoothQuant α 值自動調優的樣例代碼:

啟用增強型 SmoothQuant 的樣例代碼啟用增強型 SmoothQuant 的樣例代碼

用戶只需傳遞一個模型名稱 (model_name) 和一個數據加載器。值得注意的是,模型分析主要依靠的是 Torch JIT。用戶可以在加載 Hugging Face 模型(14) 時將 torchscript 設置為 True,或將 return_dict 設置為 False。更多信息請參閱英特爾? Neural Compressor 文檔(10)

結果

本文提出的增強型 SmoothQuant 的主要優勢在于提高了準確率。

經過對多種主流大語言模型的評估,具備自動調優能力的 INT8 SmoothQuant 最后一個詞元 (last-token) 的預測準確率要高于原始 INT8 SmoothQuant 和 FP32 基線方法。詳見下圖:

FP32 基線方法、INT8(啟用和不啟用 SmoothQuant)以及 INT8(啟用本文提出的增強型 SmoothQuant)的準確率對比

從上圖可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增強型 SmoothQuant 的準確率比默認的 SmoothQuant 分別高 5.4% 和 1.6%。量化后的模型也縮小到 FP32 模型的四分之一,大大減少了內存占用空間,從而有效地提升大模型在英特爾? 平臺上的推理性能。

更全面的結果請見GitHub 存儲庫(10) 。同時,也歡迎您創建拉取請求或就GitHub 問題(15) 發表評論。期待聽到您的反饋意見和建議。

作者:

英特爾公司人工智能資深架構師沈海豪、英特爾公司人工智能資深軟件工程師程文華、英特爾公司人工智能軟件工程師陸彤、何欣、郭恒、王暢、王夢妮,他們都在從事模型量化及壓縮的研究與優化工作。

注釋:

1、英特爾? Neural Compressor

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html

2、英特爾? Extension for TensorFlow

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-tensorflow.html

3、英特爾? Extension for PyTorch

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-pytorch.html

4、英特爾? 至強? 可擴展處理器

https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/scalable.html

5、英特爾? 至強? CPU Max 系列

https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/max-series.html

6、英特爾? 數據中心 GPU Flex 系列

https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/flex-series.html

7、英特爾? 數據中心 GPU Max 系列

https://www.intel.com/content/www/us/en/products/details/discrete-gpus/data-center-gpu/max-series.html

8、第四代英特? 至強? 可擴展處理器

https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html

9、AI 與內存墻

https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8

10、SmoothQuant 相關文檔 / 英特爾? Neural Compressor 文檔 / GitHub 存儲庫

https://github.com/intel/neural-compressor/blob/master/docs/source/smooth_quant.md

11、SPIQ

https://arxiv.org/abs/2203.14642

12、Outlier Suppression

https://arxiv.org/abs/2209.13325

13、 SmoothQuant

https://arxiv.org/abs/2211.10438

14、Hugging Face 模型

https://huggingface.co/models

15、GitHub 問題

https://github.com/intel/neural-compressor/issues

責任編輯:張燕妮
相關推薦

2023-09-01 15:22:49

人工智能數據

2025-04-16 02:30:00

2011-11-23 10:04:25

英特爾Romley處理器PCI-E 3.0

2023-11-20 13:06:52

2023-08-09 17:35:11

開源模型

2014-04-03 14:23:02

英特爾統一固件管理套件

2022-07-01 18:50:32

英特爾

2011-07-07 09:36:15

2011-12-26 10:10:00

2013-09-13 15:19:08

英特爾移動平臺IDF

2014-12-03 10:34:31

2013-04-10 15:09:24

IDF2013英特爾陳榮坤

2011-12-14 19:01:20

英特爾

2014-11-14 15:59:07

英特爾架構安卓平臺創新

2014-11-14 17:15:42

英特爾
點贊
收藏

51CTO技術棧公眾號

国内一区二区三区| 精品国产乱码一区二区三区四区| 久久波多野结衣| 免费在线看电影| 国产在线视频精品一区| 97超级碰碰人国产在线观看| 日本一区二区电影| 一区在线播放视频| 一本久道久久综合狠狠爱亚洲精品| 搞黄视频在线观看| 国产一区二区高清| 久久五月天色综合| 国产成人毛片| 亚洲麻豆国产自偷在线| 一区二区三区国产在线观看| 尤物国产在线观看| 国产黄人亚洲片| 国产欧美精品在线| 成人黄色av播放免费| 女人色偷偷aa久久天堂| 久久99久久精品国产| 一区二区三区国产好| 亚洲大片在线观看| 日本视频一区二区在线观看| 成人影院中文字幕| 欧美一级大片在线观看| 97超级碰碰碰| 女人体1963| 日韩一级二级| 中文字幕一区二区三区精华液| 国产精品入口日韩视频大尺度| www.激情小说.com| 少妇精品久久久| 久久久久久欧美| 国产欧美日韩影院| 国产精品系列在线| 成人午夜免费在线| 欧美午夜丰满在线18影院| 91av久久| 美女福利视频一区| 三级不卡在线观看| 青青草av免费在线观看| 日韩免费观看高清完整版在线观看| 亚洲丝袜一区| 国产精品香蕉在线观看| 日韩在线一二三区| 亚洲不卡中文字幕无码| 亚洲国产sm捆绑调教视频| 国产美女特级嫩嫩嫩bbb片 | 久久毛片高清国产| 欧美a在线视频| 粉嫩tv在线播放| 自拍偷在线精品自拍偷无码专区 | 3344国产永久在线观看视频| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 亚洲国产精品影视| 亚洲视频在线观看网站| 成人直播视频| 欧美黑人又粗大| 第一会所sis001亚洲| 国产精品裸体一区二区三区| 久久精品免费观看| 少妇久久久久| 女生裸体视频网站免费观看| 午夜影院久久久| 免费在线观看黄| 神马久久久久久| 蜜桃a∨噜噜一区二区三区| 北条麻妃高清一区| 欧美二区三区91| 亚洲精选一区| 精品久久亚洲| 日本欧洲国产一区二区| 欧美四级电影网| 伊人影院久久| 中文字幕制服丝袜在线| 中国av一区| 美女国内精品自产拍在线播放| 豆花视频一区二区| 97超碰免费观看| 日韩国产在线播放| 国内精品久久久久久久久电影网 | 国产精品99久久久久久久久| 97se亚洲国产综合自在线观| 久久不射影院| 亚洲a级在线播放观看| 91在线观看地址| 国产网站在线| 亚洲一二在线观看| 国产午夜精品福利| 国产特级毛片| 婷婷综合五月天| 99久久精品免费看国产四区 | 日本夜爽爽一二区| 久久久久久久电影一区| 国产激情在线观看| 国产精品日韩欧美| 亚洲国产中文字幕久久网| 久久久久综合网| 欧美.日韩.国产.一区.二区| 欧美亚洲福利| 成人在线免费观看| 青青青在线播放| 日本在线视频不卡| 日韩av色综合| 在线观看精品国产视频| 国产一区二区三区免费在线观看| 狂野欧美xxxx韩国少妇| 久久国产精品高清一区二区三区| 欧美三级蜜桃2在线观看| 特黄特色欧美大片| 少妇黄色一级片| 亚洲一区美女视频在线观看免费| 亚洲电影免费观看| 亚洲人成在线播放网站岛国| 日本大胆欧美人术艺术动态| 亚洲人挤奶视频| 四虎影院在线域名免费观看| 91精品国产色综合久久ai换脸| 日韩视频网站在线观看| 国产精品色悠悠| 日韩欧美在线网址| 国产成人精品综合在线观看| 在线亚洲激情| 日韩高清欧美| 国产精品高潮粉嫩av| 日韩精品在线观看一区| 欧美r级在线观看| 欧美色欧美亚洲另类二区| 亚洲视频图片小说| 综合电影一区二区三区| 一级中文字幕一区二区| 欧美性猛交丰臀xxxxx网站| 午夜视频在线观看一区二区| 香港成人在线视频| 一本色道久久综合亚洲91| 亚洲一区二区高清| 2023国产精品自拍| 蜜桃视频一区二区三区 | 国产精品1区2区3区在线观看| 亚洲区小说区| 日韩伦理在线一区| 在线观看的av| 青草全福视在线| 欧美成人一区二区在线| 欧美肥老妇视频| 欧美一区二区三区喷汁尤物| 成人av网站观看| 在线免费观看成人短视频| 在线精品观看| 色呦呦在线视频| 欧美一级中文字幕| 久久国产精品久久久久| 亚洲日本中文字幕区| 国产日产精品_国产精品毛片| 欧美欧美欧美| 日韩一本精品| 久久天天躁狠狠躁夜夜躁2014| 国产精品国产自产拍高清av| 欧美日韩中文一区二区| 亚洲天堂av电影| 天堂一区二区在线| xxxx成人| 欧美成人一区二区在线观看| 欧美激情视频在线| 亚洲国产综合人成综合网站| 久久麻豆精品| www在线视频| 成人免费在线网| 欧美中文字幕在线| 欧美系列在线观看| 美女视频黄 久久| 欧美激情精品| 天堂资源在线观看| 欧美男人的天堂| 色综合伊人色综合网站| 乱亲女秽乱长久久久| 丁香花高清视频完整版在线观看| 日本欧美国产在线| 欧美性色aⅴ视频一区日韩精品| 久久精品综合| 日韩av黄色在线观看| 亚洲精品一区二区三区在线观看 | 日韩视频在线一区二区三区| 成人sese在线| 精品夜夜嗨av一区二区三区| 亚洲成人av中文| 亚洲国产欧美一区| 欧美在线性爱视频 | 精品女人视频| 91在线不卡| 国产成人综合一区| 另类欧美小说| 欧美一区二区三区免费观看| 91精品国产91久久综合桃花 | 国产在线观看网站| 日产精品一区二区| 国产日韩免费| 日韩欧美黄色影院| 成人美女免费网站视频|