国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大模型量化訓練極限在哪?騰訊混元提出低比特浮點數訓練Scaling Laws

人工智能 新聞
這項研究為大模型訓練中的浮點數量化提供了重要的理論指導。其價值不僅在于明確了在給定資源和精度下的最優參數配置策略,幫助提高訓練效率和降低成本,而且對于推動大模型在實際應用中的更廣泛部署具有關鍵意義。

大模型低精度訓練和推理是大模型領域中的重要研究方向,旨在通過降低模型精度來減少計算和存儲成本,同時保持模型的性能。因為在大模型研發成本降低上的巨大價值而受到行業廣泛關注 。近期,業界對低精度訓練和推理的廣泛關注與討論。在實際的研發過程中,特別是模型訓練方面,經驗表明浮點數量化方案相比整數量化方案對模型效果造成的損失更小,所以浮點數常常被用作量化訓練的類型。這就引出了一些問題:整數類型量化訓練的經驗能否直接應用到浮點數類型的量化訓練任務中?如果不能,浮點數類型又會有怎樣的結論?量化訓練到底有沒有極限?

大模型社區亟需一個更加適合實際浮點數量化訓練的 Scaling Laws,指導大模型量化的實際選擇和未來探索方向。為了回答這些問題,騰訊混元團隊進行了 366 組不同參數規模和精度的浮點數量化訓練,對浮點數量化訓練進行詳細分析后提出了浮點數量化的 Scaling Laws。

  • 論文標題:《Scaling Laws for Floating–Point Quantization Training》
  • 論文鏈接:https://huggingface.co/papers/2501.02423

引言

大模型(Large Language Model, LLM)如今已經融入到我們生產生活的各個層面。大模型的參數規模不斷增大,調用量也持續升高,這使得大模型的訓練和推理成本成為 LLM 社區極為關注的重要問題。低比特量化技術能夠在一定程度上降低大模型訓練和推理的成本。鑒于此,這一技術在主流大模型的訓練和推理過程中得到了廣泛應用。前沿研究工作對 8 比特、4 比特甚至更低比特的量化策略進行了嘗試,并對這些策略予以驗證。

近期,論文《Scaling Laws for Precision》深入探討了整數類型量化策略下的精度對模型 loss 的影響,不過僅在附錄中簡略提及了浮點數類型量化策略的表現,并未深入探究。然而,在實際的生產過程中,特別是模型訓練方面,經驗表明浮點數量化(floating–point quantization)方案相比整數量化方案對模型效果造成的損失更小,所以浮點數更常被用于超低精度量化訓練。

騰訊混元團隊的新工作《Scaling Laws for Floating–Point Quantization Training》系統全面地研究了浮點數量化訓練的 Scaling Laws,填補了這一領域的空白。具體地,他們在大模型 Scaling Law 的經典要素:模型大小(簡稱 N)和訓練數據量(簡稱 D)之外,聯合考慮浮點數量化訓練中重要的量化目標,指數位(Exponent,簡稱 E),尾數位(Mantissa,簡稱 M),以及量化時放縮因子共享粒度(Block-size,簡稱 B)對于大模型訓練損失的影響。他們進行了 366 組不同參數規模和精度設置的浮點數量化訓練,得出最終的浮點數量化的統一 Scaling Law 形式如下:

圖片

并且依據這一 Scaling Law 深入分析與推導之后,能夠得出如下一些重要結論:

  • 在任意低精度大模型浮點數量化訓練中,都存在一個模型極限效果及對應的最佳數據量。超過此最佳數據量時繼續增加數據,反而會對模型效果產生負面影響;
  • 限定計算資源下,在一個非常大的算力范圍內,理論預測的最佳性價比的浮點數量化訓練精度落在 4-8 比特之間;
  • 在實際工作中,借助我們的 Scaling Laws 及其推論,同時結合計算資源圖片,可以明確得出不同計算資源下具有最佳性價比的浮點數量化訓練精度設置、模型參數量以及訓練數據量的配置策略。

最佳的浮點數

與整數類型只有符號位(Signal,簡稱 S)和整數位相比,參考 IEEE 754 標準,浮點數顯得復雜許多。它由符號位、指數位(Exponent,簡稱 E)和尾數位(Mantissa,簡稱 M)共同作用決定最終取值。

圖片

通過大量實驗與理論分析,騰訊混元團隊推導出了指數位和尾數位對最終模型效果之間的定量關系:

圖片

同時還得出給定精度(Precision,簡稱 P)P=1+E+M 情況下,指數位與尾數位的最佳配比規律需滿足:

圖片

未來硬件制造商也可以參考此結論,提供在不同精度下的浮點運算能力支持:

圖片

精細量化

量化過程中,為了減少精度損失會對需量化 Tensor 進行放縮(Scaling)。同時,為節省放縮因子(Scaling Factor)的存儲空間,通常會讓 Tensor 中的若干元素共享一個放縮因子。顯然,放縮因子共享粒度越大,其存儲空間越小,但由此帶來的量化損失也會越大。混元團隊定量地研究了放縮因子共享粒度(Block-size,簡稱 B)對模型效果的影響,發現訓練時的驗證損失(Validate Loss)與 B 的對數成正比例關系:圖片

Scaling Law

在綜合了所有浮點數量化訓練中影響模型效果的因素(如參數量 N,數據量 D,指數位 E,尾數位 M 和量化粒度 B)后,混元團隊最終得出了浮點數量化訓練的 Scaling Law:

圖片

前三項基于經典的 Chinchilla Scaling Law 的形式,第四項可以看做浮點數量化對于模型的額外損失。有意思的是,圖片可以被看作某種形式的 “知識密度”,而 E, M 和 B 的聯合項可以被看作某種形式的精度表示。直觀地分析,大模型過低精度下無法承載過高的知識密度,導致了額外損失。另外值得注意的是,我們 Scaling Law 中 N 和 D 的指數參數 α 和 β,在第一項 / 第二項 / 第四項都是完全相同的,形式更加統一。

為了判斷最終統一形式的泛化能力,騰訊混元團隊在小模型(41M - 679M)上擬合估算出 n, d, α, β, γ, δ, ν 以及 ? 等參數的取值后:

圖片

在更大的模型(1.2B)上也驗證了不同量化配置下的預測效果。

無法跨越的效果屏障

在上面 Scaling Law 公式里,第二項和第四項關于數據量(D)的部分構成一個有最值的函數,即存在一個關于 D 的 loss 最低點,這個最值點在:

圖片

注意此時這里并沒有給 Scaling Law 添加任何限制條件,這意味著當訓練某個模型時,每個精度都存在一個對應的極限效果,無論使用多少數據都無法超越。并且當使用的數據量超過 Dcrit 時,繼續增加數據反而對模型效果是有害的。

從公式中,我們發現,模型越小,精度越低,那么這個極限數據量就會越早到來,增加數據導致模型效果變差越明顯。因此,越小的模型越需要越大的精度才能保證給定數據的有效訓練。

圖片

這一隨著訓練進行損失不降反升的現象,也得到了混元團隊的真實訓練結果支持。但是,經過計算當采用 BF16 訓練 1B 參數量模型時,會發現這一極限數據量高達 1730T,這可能也是之前沒有人發現這一現象的原因。然而,隨著精度降低,比如采用 FP8-E4M3 時這一數值降低至 27T,而使用 FP4-E2M1 時則只有 0.4T。

限定資源下的最優解

于是可以得知,即使在無限資源下,由于效果屏障存在的原因,訓練模型時使用的數據量也不應該超過 Dcrit。那么在限定資源下,通過求解方程組:

圖片

可以得出一個符合經典冪律關系(Power-law)的最佳性價比精度配方:

圖片

根據實驗結果推算,在一個非常大的算力范圍內,理論預測的最佳性價比落在 4-8 比特之間。

圖片

精度與參數量的匯率

在資源受限的情況下,盡管我們已知在最佳性價比時精度應如何選取,然而參數量 N 與數據量 D 究竟該如何搭配這一問題依舊尚未得到解決。通過對方程組:

圖片

進行求解能夠發現,在限定資源的情況下,若要保持性價比,精度 P 和參數量 N 之間存在著一個類似于 “匯率” 的關系:

圖片

所以,在實際工作當中,可以借助 “精度 —— 參數量的匯率”,并且結合,進一步明確在最佳性價比下的精度 P、參數量 N 以及數據量 D 的配置策略。

這項研究為大模型訓練中的浮點數量化提供了重要的理論指導。其價值不僅在于明確了在給定資源和精度下的最優參數配置策略,幫助提高訓練效率和降低成本,而且對于推動大模型在實際應用中的更廣泛部署具有關鍵意義。通過揭示浮點數量化訓練的極限和規律,為硬件制造商優化浮點運算能力提供了依據,也為研究人員在大模型的優化和創新方面開辟了新的思路和方向。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-30 10:35:00

訓練數據模型

2024-06-21 11:44:17

2024-05-22 18:10:38

2025-04-16 02:30:00

2025-03-03 04:20:00

2025-03-12 12:10:13

2020-09-15 12:57:46

C 語言浮點數內存

2024-11-06 09:47:00

2023-09-07 11:48:36

騰訊混元大模型

2023-07-05 08:00:58

Redis數據庫

2024-11-13 13:50:00

AI模型

2023-10-26 15:38:03

混元大模型騰訊

2023-09-12 07:02:19

騰訊混元大模型

2024-07-29 09:10:00

模型數據

2024-09-05 16:37:37

2022-04-29 16:47:57

AI騰訊

2024-12-11 08:28:15

點贊
收藏

51CTO技術棧公眾號

99tv成人影院| 一级黄色特级片| 在线视频福利一区| 久久精品亚洲一区| 精品国产乱码久久久久久蜜柚| 18禁免费无码无遮挡不卡网站| 精品一二三区视频| 伊人电影在线观看| 最新国产精品视频| 免费日韩精品中文字幕视频在线| 日本一区二区免费在线观看视频 | 久久国产精品精品国产色婷婷| 国产精品久久久久久亚洲伦| 日本少妇一区二区| 女人天堂亚洲aⅴ在线观看| 男男gay无套免费视频欧美 | 九九视频直播综合网| 久久久久成人精品| 亚洲综合日韩在线| 日韩免费在线观看av| 美女被人操视频在线观看| 自拍网站在线观看| 黑人操亚洲人| 国产1区2区3区精品美女| 精品久久久久久久久久久久久久 | www国产无套内射com| 麻豆av一区| 中文字幕无码精品亚洲资源网久久| 国产小视频福利在线| 亚洲欧洲日产国码二区| 亚洲国产精品成人综合| 亚洲va天堂va国产va久| 国产视频在线一区二区| 欧美野外猛男的大粗鳮| 欧美日韩国产精品一卡| 美女胸又www又黄的网站| 91在线视频免费看| 欧美a级网站| 国产精品一区二区三区乱码| 午夜精品福利久久久| 日韩在线欧美在线国产在线| 99久久精品无码一区二区毛片| 人妻内射一区二区在线视频 | 欧美日韩美女视频| 一区二区三区丝袜| 日本久久一区二区三区| 韩国一区二区电影| 日本一区二区三区四区高清视频 | 亚洲欧美成人在线| 欧美一二三区在线观看| 亚洲成人免费视| 亚洲自拍另类欧美丝袜| 69av在线| www.av91| 丁香婷婷激情网| 免费a在线观看| 黄网免费入口| 久久久男人天堂| 成人知道污网站| 日韩成人三级| 亚洲va欧美va人人爽| 日韩电影网在线| 精品中文字幕在线| 久久久久久国产精品| 精品久久久久久一区| 一级特黄录像免费播放全99| 欧美日韩电影免费看| 视频欧美一区| 亚洲福利国产精品| 人人超碰在线| 成人国产一区二区三区精品麻豆| 国产一区二区精品久久99| 欧美丝袜一区二区三区| 久久久久久免费| 久久色免费在线视频| 欧美日韩福利在线| av电影在线播放高清免费观看| 57pao国产一区二区| 国产欧美午夜| 国产日韩影视精品| 亚洲激情自拍视频| 国产成人免费电影| 伊人狠狠色丁香综合尤物| 日韩一区二区三区四区五区 | 久久综合色占| 国产精品乱人伦中文| 欧美老年两性高潮| 国产精品极品尤物在线观看| 欧美黑人xx片| 高清一区二区| 欧美日韩国产首页| 国产免费成人av| 日韩一级黄色av| 色琪琪原网站亚洲香蕉| 在线电影一区| 亚洲第一主播视频| 国产精品国产三级国产普通话蜜臀| 波多野结衣一区二区三区在线观看| 亚洲一级免费在线观看| 久久一级电影| 日本韩国一区二区三区| 国产精自产拍久久久久久| 性欧美18+| 99视频精品全国免费| 日韩欧美一区二区三区| 久久99精品久久久久久秒播放器 | 亚洲精品乱码久久久久久久久 | 日本综合在线| 激情av综合网| 国产欧美最新羞羞视频在线观看| 热色播在线视频| 亚洲女人小视频在线观看| 欧美日韩影院| 欧美精品自拍偷拍| 欧美日韩国产不卡在线看| 26uuu亚洲电影在线观看| 激情av综合网| 欧美极品少妇xxxxⅹ裸体艺术 | 久久国产精品影视| 一级片免费看| 亚洲欧美成人| 亚洲香蕉成人av网站在线观看 | 美女一区二区三区在线观看| 午夜av电影一区| 国产精选一区二区| 午夜影院观看视频免费| av一本久道久久综合久久鬼色| 亚洲二区中文字幕| 国产精品99久久99久久久| 国产精品视频在线看| 2019中文字幕全在线观看| 先锋成人av| 92精品国产成人观看免费| 国产欧美一区二区三区久久| 在线午夜影院| 日本美女一区二区三区视频| 伊人色综合久久天天五月婷| 成人片免费看| 中文字幕第一区| 免费黄色福利视频| 久久综合九色综合欧美就去吻| 国产va免费精品高清在线观看| 在线播放免费av| 久久综合色之久久综合| 亚洲va国产va天堂va久久| av免费在线视| 欧美日韩国产色视频| 亚洲永久在线观看| 欧美亚洲三区| 91网免费观看| 精品中文字幕一区二区三区四区 | www.av精品| 日本xxx免费| 日韩在线a电影| 国产伦精品免费视频| 欧美风情在线视频| 在线观看成人小视频| 亚洲国产精品成人一区二区在线| 狠狠网亚洲精品| 奇米视频888战线精品播放| 中国av一区| 欧美激情喷水视频| 蜜桃av在线| 亚洲国内精品在线| 中文天堂av| 国产精品久久久久久久午夜片| 涩爱av在线播放一区二区| 日韩中文字幕区一区有砖一区| 国产精品69页| 欧美一级视频| 国产v亚洲v天堂无码久久久| 亚洲美女啪啪| 91九色国产ts另类人妖| 国产一区二区亚洲| 欧美日韩在线观看一区二区三区| 精品一区二区三区香蕉蜜桃| 欧美高清视频一区二区三区在线观看| 国产精品毛片视频| 欧美黑人xxxⅹ高潮交| 免费在线看黄| 777亚洲妇女| 美女av网站| 亚洲国产高清福利视频| 精品视频二区| 999精品在线| 欧美精品激情在线| 欧美高清你懂的| 国产香蕉精品视频一区二区三区| 日本在线啊啊| 亚洲精品美女久久久| 天天超碰亚洲| 成人免费在线看片| 欧美午夜精品一区二区三区电影| …久久精品99久久香蕉国产| 精品高清久久| 99久久久精品免费观看国产| 久久精品国产秦先生| 最新中文字幕在线视频| 欧美一级理论片| 肉肉视频在线观看|