国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

訓大模型講究「化勁」!陶大程帶隊:一文打盡「高效訓練」方案,別再說硬件是唯一瓶頸

人工智能 新聞
在實驗室訓大模型不能用死勁兒,這篇綜述教你四兩撥千斤!

深度學習領域已經取得了階段性重大進展,特別是在計算機視覺、自然語言處理和語音等方面,使用大數據訓練得到的大規模模型對于實際應用、提高工業生產力和促進社會發展具有巨大的前景。

圖片

不過大模型也需要大算力才能訓得動,隨著人們對計算能力要求的不斷提高,盡管已有許多研究探索高效的訓練方法,但仍然沒有對深度學習模型加速技術的全面綜述。

最近,來自悉尼大學、中國科學技術大學等機構的研究人員發布了一篇綜述,全面總結了大規模深度學習模型的高效訓練技術,展現了訓練過程中的各個組件內的通用機制。

圖片

論文鏈接:https://arxiv.org/pdf/2304.03589.pdf

研究人員考慮了最基本的權重更新公式,并將其基本組成部分劃分為五個主要方面: 

圖片

1、以數據為中心(data-centric),包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜性;

2、以模型為中心(model-centric),包括基本模塊的加速、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算來加速訓練;

3、以優化為中心(optimization-centric),包括學習率的選擇、使用大batch size、高效目標函數的設計、模型加權平均技術等;側重于訓練策略以提高大規模模型的通用性;

4、預算訓練(budgeted training),包括一些在硬件受限的情況下使用的加速技術;

5、以系統為中心(system-centric),包括一些高效的分布式框架和開源庫,為加速算法的實現提供足夠的硬件支持。

以數據為中心的高效訓練

最近,大規模模型的進展大放異彩,而其對數據集的要求卻急劇增加。巨大的數據樣本被用來驅動訓練過程并取得出色的性能。因此,以數據為中心的研究對實際加速至關重要。

數據處理(data processing)的基本作用是在不額外增加標注成本的情況下,高效地增加數據樣本的多樣性;由于數據標注的成本往往過于昂貴,部分開發機構無法負擔,也凸顯了以數據為中心領域的研究的重要性;同時,數據處理還注重提高數據樣本的并行加載效率。

研究人員將所有這些對數據的高效處理稱為「以數據為中心」(data-centric)的方法,可以顯著提高訓練大規模模型的性能。

文中從以下幾個方面回顧和研究技術:

數據正則化 Data Regularization

數據正則化是一種預處理技術,通過一系列的數據變換來增強原始數據樣本的多樣性,可以提高訓練樣本在特征空間中的等效表示,不需要額外的標簽信息的要求。

高效的數據正則化方法在訓練過程中被廣泛使用,能夠顯著提高大規模模型的泛化性能。

數據采樣 Data sampling

數據采樣也是一種有效的方法,從大批量的樣本中選擇一個子集來對梯度進行更新,它的好處是以小批量的訓練的方式,可以減少當前批次中那些不重要的或不好樣本的影響。

通常情況下,采樣出來的數據是更重要的,性能與使用全批次訓練得到的模型相當;每次迭代的概率需要隨著訓練過程逐漸調整,以確保采樣沒有偏差。

以數據為中心的課程學習 Data-centric Curriculum Learning

課程學習在訓練過程的不同階段研究漸進的訓練設置,以減少整體的計算成本。

在開始的時候,使用低質量的數據集訓練足以學習低層次的特征;然后使用高質量的數據集(更多的增強和復雜的預處理方法)逐漸幫助學習復雜的特征,并達到與使用整個訓練集相同的精度。

以模型為中心的高效訓練

設計高效的模型架構始終是深度學習領域最重要的研究之一,一個優秀的模型應當是一個高效的特征提取器,可以投射到容易分離的高級特征中。

與其他特別關注高效、新穎的模型架構的工作不同,這篇論文在「以模型為中心」的研究中更加關注通用模塊的等價替代方案,在具有可比性的情況下實現更高的訓練效率。

幾乎所有的大型模型都是由小模塊或層組成的,所以對模型的調研可以為高效訓練大規模模型提供指導作用,研究人員主要從以下幾個方面研究:

架構效率 Architecture Efficiency

隨著深度模型中參數量的急劇增加,也帶來了巨大的計算消耗,所以需要實現一個高效的替代方案來近似原始版本的模型架構的性能,這個方向也逐漸受到學術界的重視;這種替換不僅僅是數值計算的近似,還包括深度模型中的結構簡化和融合。

研究人員根據不同的架構來區分現有的加速技術,并展示了一些觀察和結論。

壓縮訓練效率 Compression Training Efficiency

壓縮一直是計算加速的研究方向之一,在數字信號處理(多媒體計算/圖像處理)中起著關鍵作用。

傳統的壓縮包括兩個主要分支:量化和稀疏,文中詳細說明了二者現有的成就和對深度訓練的貢獻。

初始化效率 Initialization Efficiency

模型參數的初始化在現有的理論分析和實際場景中都是一個非常重要的因素。

一個不好的初始化狀態甚至會導致整個訓練在早期的訓練階段崩潰和停滯,而一個好的初始化狀態則有助于在一個平滑的損失范圍內加快整個收斂的速度,文中主要從模型初始化的角度研究評估和算法設計。

以模型為中心的課程學習 Model-centric Curriculum Learning

從以模型為中心的角度來看,課程學習通常從大規模模型中的一個小模型或部分參數開始訓練,然后逐漸恢復到整個架構;在加速訓練過程中顯示了較大優勢,并且沒有明顯的負面效應,文中回顧了該方法在訓練過程中的實現和效率。

以優化為中心的高效學習

優化方法的加速方案一直是機器學習領域的一個重要研究方向,在實現最優條件的同時降低復雜性一直是學術界追求的目標。

近年來,高效、強大的優化方法在訓練深度神經網絡方面取得了重要突破,作為機器學習中廣泛使用的基本優化器,SGD類的優化器成功地幫助深度模型實現各種實際應用,不過隨著問題的日益復雜,SGD更容易陷入局部最小值,無法穩定地泛化。

為了解決這些困難,Adam及其變種被提出來,在更新上引入自適應性,這種做法在大規模的網絡訓練中取得了良好的效果,例如在BERT、Transformer和ViT模型中都有應用。

除了所設計的優化器的自身性能外,對加速訓練技術的組合也很重要。

研究人員基于優化的角度,將目前對加速訓練的思考總結為以下幾個方面:

學習率  Learning rate

學習率是非凸優化的一個重要的超參數,在當前的深度網絡訓練中也是至關重要的,像Adam及其變種這樣的自適應方法,已經成功地在深度模型上取得了卓越的進展。

圖片

一些基于高階梯度的調整學習率的策略也有效地實現了加速訓練,學習率衰減的實現也會影響到訓練過程中的性能。

大批尺寸 Large batchsize

采用更大的批處理量將有效地提高訓練效率,能夠直接減少完成一個epoch訓練所需的迭代次數;在樣本總量固定的情況下,處理一個更大的批尺寸比處理多個小批尺寸的樣本來說消耗更低,因為可以提高內存利用率和降低通信瓶頸。

高效的目標 Efficient objective

最基礎的ERM在最小化問題上起到關鍵作用,使得許多任務得以實際運用。

隨著對大型網絡研究的深入,一些作品更加關注優化和泛化之間的差距,并提出有效的目標以減少測試誤差;從不同的角度解釋泛化的重要性,并在訓練中對其進行聯合優化,可以大大加快測試的準確性。

加權平均  Averaged weights

加權平均是一種實用的技術,可以增強模型的通用性,因為考慮的是歷史狀態的加權平均,有一組凍結的或可學習的系數,可以大大加快訓練進程。

預算化高效訓練

最近有幾項工作專注于用較少的資源訓練深度學習模型,并且盡可能地實現更高的精度。

這類問題被定義為預算訓練(budgeted training),即在給定的預算(對可測量成本的限制)下進行訓練,以實現最高的模型性能。

為了系統地考慮硬件支持以接近真實情況,研究人員將預算訓練定義為在給定的設備和有限的時間內進行訓練,例如,在單個低端深度學習服務器上訓練一天,以獲得具有最佳性能的模型。

圖片

對預算內訓練的研究可以闡明如何制作預算內訓練的訓練配方,包括決定模型大小、模型結構、學習率安排和其他幾個影響性能的可調整因素的配置,以及結合適合可用預算的高效訓練技術,文中主要回顧了預算訓練的幾項先進技術。

以系統為中心的高效訓練

以系統為中心的研究就是為所設計的算法提供具體的實現方法,研究的是能夠真正實現高效訓練的硬件的有效和實際執行。

研究人員重點關注通用計算設備的實現,例如多節點集群中的CPU和GPU設備,從硬件的角度解決設計算法中的潛在沖突是關注的核心。

文中主要回顧了現有框架和第三方庫中的硬件實現技術,這些技術有效地支持了數據、模型和優化的處理,并介紹一些現有的開源平臺,為模型的建立、有效利用數據進行訓練、混合精度訓練和分布式訓練提供了堅實的框架。

以系統為中心的數據效率 System-centric Data Efficiency

高效的數據處理和數據并行是系統實現中的兩個重要關注點。

隨著數據量的快速增加,低效的數據處理逐漸成為訓練效率的瓶頸,尤其是在多節點上的大規模訓練,設計更多對硬件友好的計算方法和并行化可以有效避免訓練中的時間浪費。

以系統為中心的模型效率 System-centric Model Efficiency

隨著模型參數數量的急劇擴大,從模型角度看,系統效率已經成為重要的瓶頸之一,大規模模型的存儲和計算效率給硬件實現帶來巨大挑戰。

文中主要回顧如何實現部署的高效I/O和模型并行的精簡實現,以加快實際訓練的速度。

以系統為中心的優化效率 System-centric Optimization Efficiency

優化過程代表了每個迭代中的反向傳播和更新,也是訓練中最耗時的計算,因此以系統為中心的優化的實現直接決定了訓練的效率。

為了清楚地解讀系統優化的特點,文中重點關注不同計算階段的效率,并回顧每個過程的改進。

開源框架 Open Source Frameworks

高效的開源框架可以促進訓練,作為嫁接(grafting)算法設計和硬件支持的橋梁,研究人員調查了一系列開源框架,并分析了每個設計的優勢和劣勢。

圖片

結論

研究人員回顧了有效訓練大規模深度學習模型的通用訓練加速技術,考慮了梯度更新公式中的所有組件,涵蓋了深度學習領域的整個訓練過程。

文中還提出了一個新穎的分類法,將這些技術總結歸類為五個主要方向:以數據為中心、以模型為中心、以優化為中心、預算訓練和以系統為中心。

前四部分主要從算法設計和方法論的角度進行綜合研究,而在「以系統為中心的高效訓練」部分,從范式創新和硬件支持的角度總結了實際實現情況。

文中回顧并總結了與每個部分相對應的常用或最新開發的技術,每項技術的優勢和權衡,并討論局限性和有前景的未來研究方向;在提供全面的技術回顧和指導的同時,這篇綜述還提出了當前高效訓練的突破口和瓶頸。

研究人員希望能幫助研究人員高效地實現通用的訓練加速,并為高效訓練的未來發展提供一些有意義和有前景的影響;除了在每一節末尾提到的一些潛在的進展之外,更廣泛的、有前景的觀點如下:

1、 高效的Profile搜索

高效訓練可以從數據增強組合、模型結構、優化器設計等角度出發,為模型設計預建的和可定制的profile搜索策略,相關研究已經取得了一些進展。

新的模型架構和壓縮模式、新的預訓練任務、對「模型邊緣」(model-edge)知識的利用同樣值得探索。

2、自適應調度器 Adaptive Scheduler

使用一個面向優化的調度器,如課程學習、學習速率和批次大小以及模型的復雜性,有可能實現更好的性能;Budget-aware調度器可以動態適應剩余預算,降低人工設計的成本;自適應調度器可以用來探索并行性和通信方法,同時考慮到更通用且實際的情況,例如在跨越多地區和數據中心的異構網絡中進行大規模去中心化訓練。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-08-26 10:01:50

2023-01-31 13:25:58

SOTA生成式模型

2024-05-29 12:13:50

2025-11-27 01:45:00

2024-09-13 17:02:29

2025-05-30 05:00:00

AI模型數據訓練

2024-09-04 16:19:06

語言模型統計語言模型

2021-01-15 18:15:27

人工智能AI

2025-05-30 01:00:00

RAG大模型流程

2020-09-21 14:35:00

算法圖表視覺化

2025-07-11 09:50:52

2023-09-12 07:02:19

騰訊混元大模型

2024-12-11 12:58:57

2023-05-16 12:11:22

2025-09-28 01:55:00

GGUF大模型GPT

2025-01-06 11:10:00

架構模型AI

2023-09-25 07:31:19

算力AI框架

2022-07-26 00:00:03

語言模型人工智能

2024-07-23 10:34:57

2021-05-14 14:01:31

加密貨幣網絡安全加密錢包
點贊
收藏

51CTO技術棧公眾號

岛国在线大片| 九九视频免费观看视频精品 | av二区三区| 四虎一区二区| 激情丁香在线| 在线中文字幕-区二区三区四区 | 精品国产亚洲一区二区三区在线| 欧美亚洲精品在线| 亚洲九九爱视频| 欧美人与z0zoxxxx视频| 91精品视频网| 亚洲精品视频免费| 青青草久久网络| 91av在线影院| 91精品一区| 亚洲第一中文字幕| 影音先锋男人资源在线| 欧美日韩美少妇| 成人高清免费观看mv| 日韩欧美a级成人黄色| 中文字幕毛片| 亚洲国产精品尤物yw在线观看| 成人黄色电影在线| 中文字幕亚洲欧美在线不卡| ckplayer中文字幕| 亚洲一区在线观看视频| 中文字幕视频在线免费| 一本到不卡精品视频在线观看| 你懂的视频在线免费| 欧美日韩亚洲综合| 欧美v亚洲v| 一区二区三区国产在线观看| 日韩一级视频| 8x拔播拔播x8国产精品| 精品在线91| 91九色偷拍| 91久久精品一区二区别| 精品一区二区三| 国产精品一区二区三区在线播放 | 国产亚洲欧美一区二区| 亚洲国产专区| 在线观看欧美一区| av色综合久久天堂av综合| 99re在线视频免费观看| 亚洲精品视频在线| 亚洲成a人v欧美综合天堂麻豆| 亚洲第一区在线观看| 亚洲综合资源| 成人激情春色网| 久久性色av| 97国产在线播放| 亚洲韩国一区二区三区| 日本在线看片免费人成视1000| 精品国产乱码久久久久久免费| 日本欧美在线| 国产精品自产拍在线观| 日韩精品免费专区| 中文精品无码中文字幕无码专区| 国产精品第五页| 成人在线观看网站| 在线亚洲欧美视频| 欧美亚洲在线日韩| 手机成人av在线| 亚洲一线二线三线视频| 女同视频在线观看| 欧美成年人网站| 在线国产日韩| 国产在线观看福利| 欧美日韩午夜激情| 亚洲国产尤物| 999在线免费观看视频| 国产成+人+日韩+欧美+亚洲| 黑料吃瓜在线观看| 在线视频国产日韩| 黄色国产精品| 成年人在线观看视频免费| 欧美日韩国产综合草草| 91夜夜蜜桃臀一区二区三区| 久久精品五月婷婷| 国产精品黄色在线观看| av在线网页| 91色p视频在线| 成人黄色a**站在线观看| 每日更新av在线播放| 欧美精品在线看| 免费在线视频一区| 中文字幕亚洲精品视频| 久久久精品久久久| 午夜在线精品| x88av蜜桃臀一区二区| 自拍偷拍亚洲欧美| 亚洲人体偷拍| 免费在线黄网| 国产成人av| 国产精品美女久久| 国产原创一区二区三区| 日韩在线观看高清| 四虎影视4hu4虎成人| 国产成人一区二区在线| 国产1区在线| 午夜精品www| 极品美女销魂一区二区三区| 国产免费福利| 日韩在线免费高清视频| 欧美特黄一区| 欧美日韩中文字幕在线视频| 欧美一卡二卡| 一区二区三区四区视频| 亚洲精品99久久久久| 亚洲裸色大胆大尺寸艺术写真| 日本不卡一区| 在线影视一区二区三区| 欧洲亚洲视频| 日本一本二本在线观看| 日韩av在线免费观看| 欧美日韩福利| 蜜臀在线观看| 欧美日韩五区| 国产一区二区免费在线观看| 色一区二区三区四区| 国模冰冰炮一区二区| 亚洲视频sss| 久久夜色撩人精品| 999久久久国产999久久久| 日韩视频专区| 欧美日韩一区视频| 无需播放器亚洲| 日韩男人天堂| 日本系列欧美系列| 91污色多多| 2021久久精品国产99国产精品| 国v精品久久久网| 亚洲最大成人| 最新av在线免费观看| 欧美一级日韩一级| 一本色道久久综合亚洲精品不卡| 国产一区二区影视| 国产二区不卡| 91精品国产美女浴室洗澡无遮挡| 欧美日韩国产在线一区| 亚洲天堂久久| 99ri国产在线| www.xxxx欧美| 美日韩在线视频| 美腿丝袜亚洲一区| 丰满大乳少妇在线观看网站| 日产国产精品精品a∨| 日韩免费一区二区三区在线播放| 噜噜爱69成人精品| 国内高清免费在线视频| 香蕉精品视频在线| 中文在线资源观看视频网站免费不卡 | 欧美gv在线| 性生活免费观看视频| 亚洲人午夜精品免费| 成人av网站免费观看| 免费精品一区| 中国大陆高清aⅴ毛片| 亚洲aⅴ日韩av电影在线观看| 日本精品免费观看高清观看| 性色一区二区三区| 久久久久毛片| jizzjizz中国精品麻豆| 蜜桃视频免费网站| 鲁鲁狠狠狠7777一区二区| 国产精品久久999| 欧洲熟妇精品视频| 亚洲高清不卡一区| 91精品国产乱码久久久久久 | 中文字幕精品国产| 一本色道久久综合亚洲精品小说| 91最新在线免费观看| 国产96在线 | 亚洲| 你懂的在线网址| www视频在线观看| 国精品一区二区| 国产片一区二区三区| 精品国产福利在线| 精品日韩一区二区三区免费视频| 日韩欧美一级精品久久| 337p亚洲精品色噜噜| 精品国产污污免费网站入口| 欧美美最猛性xxxxxx| 欧美日韩成人在线观看| 国产一区二区三区奇米久涩| 一区二区三区我不卡| 午夜男人视频在线观看| 成人资源在线| 激情欧美亚洲| 欧美性欧美巨大黑白大战| 欧美视频日韩| 欧美国产精品久久| 欧美国产日韩一二三区| 狠狠色噜噜狠狠狠狠97| 九九九热精品免费视频观看网站| 亚洲精品国产一区| 黄色的视频在线免费观看| 制服丝袜日韩| 国产欧美精品一区二区色综合朱莉| 一区二区三区在线观看欧美|