国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

PyTorch 指南:17個技巧讓你的深度學習模型訓練變得飛快!

人工智能 深度學習
如果你正在 pytorch 中訓練深度學習模型,那么如何能夠加快模型訓練速度呢?在本文中,我會介紹一些改動最小、影響最大的在pytorch中加速深度學習模型的方法。

如果你正在 pytorch 中訓練深度學習模型,那么如何能夠加快模型訓練速度呢?

在本文中,我會介紹一些改動最小、影響最大的在pytorch中加速深度學習模型的方法。對于每種方法,我會對其思路進行簡要介紹,然后預估提升速度并討論其限制。我會把我認為重要的部分強調介紹,并在每個部分展示一些實例。接下來我將假設你正在使用GPU訓練模型,這些方法基本不需要導入其他的庫,只需要再pytorch內進行更改即可。

[[378697]]

以下是我根據預估的加速效果對不同方法的排序:

  1. 考慮使用其他的學習率調整計劃
  2. 在DataLoader中使用多個輔助進程并頁鎖定內存
  3. 最大化batch大小
  4. 使用自動混合精度AMP
  5. 考慮不同的優化器
  6. 打開cudNN基準
  7. 當心CPU與GPU之間的數據傳輸
  8. 使用梯度/激活檢查點
  9. 使用梯度累積
  10. 多GPU分布式訓練
  11. 將梯度設置為None而不是0
  12. 使用.as_tensor()而不是.tensor()
  13. 只在需要的時候打開debugging模式
  14. 使用梯度裁剪
  15. 在BatchNorm之前忽略偏差
  16. 驗證時關閉梯度計算
  17. 規范化輸入和批處理

1. 考慮使用其他的學習率調整計劃

在訓練中使用的學習率調整計劃會極大影響收斂速率以及模型泛化能力。

Leslie N. Smith 提出了循環學習率和1Cycle 學習率方法,然后由 fast.ai 的 Jeremy Howard 和 Sylvain Gugger 推廣了。總的來說,1Cycle 學習速率方法如下圖所示:

在最好的情況下,與傳統的學習率策略相比,這種策略可以實現巨大的加速—— Smith稱之為“超級收斂”。例如,使用1Cycle策略,在ImageNet上減少了ResNet-56訓練迭代數的10倍,就可以匹配原始論文的性能。該策略似乎在通用架構和優化器之間運行得很好。

PyTorch提供了 torch.optim.lr_scheduler.CyclicLR 和 torch.optim.lr_scheduler.OneCycleLR 兩種方法實現該操作,請參閱相關文檔。

這兩個方法的一個缺點是引入了許多額外的超參數。這篇文章和倉庫對如何查找好的超參數(包括上文提及的學習率)提供了詳細概述和實現。

至于為什么要這樣做?現今并不完全清楚,但一個可能的解釋是:定期提高學習率有助于更快越過損失鞍點。

2. 在DataLoader中使用多個輔助進程并頁鎖定內存

在使用 torch.utils.data.DataLoader時,令 num_workers > 0,而不是默認值 0,同時設置 pin_memory=True,而不是默認值 False。至于為什么這么做,這篇文章會給你答案。

根據上述方法,Szymon Micacz 在四個 worker 和頁鎖定內存的情況下,在單個epoch中實現了 2 倍加速。

根據經驗,一般將進程數量設置為可用 GPU 數量的四倍,大于或小于這個值都會降低訓練速度。但是要注意,增加num_workers會增加 CPU 內存消耗。

3.最大化batch大小

一直以來,人們對于調大batch沒有定論。一般來說,在GPU內存允許的情況下增大batch將會增快訓練速度,但同時還需要調整學習率等其他超參數。根據經驗,batch大小加倍時,學習率也相應加倍。

OpenAI 的論文表明不同的batch大小收斂周期不同。Daniel Huynh用不同的batch大小進行了一些實驗(使用上述1Cycle 策略),實驗中他將 batch大小由64增加到512,實現了4倍加速。

然而也要注意,較大的batch會降低模型泛化能力,反之亦然。

4. 使用自動混合精度AMP

PyTorch1.6支持本地自動混合精度訓練。與單精度 (FP32) 相比,一些運算在不損失準確率的情況下,使用半精度 (FP16)速度更快。AMP能夠自動決定應該以哪種精度執行哪種運算,這樣既可以加快訓練速度,又減少了內存占用。

AMP的使用如下所示: 

  1. import torch# Creates once at the beginning of trainingscaler = torch.cuda.amp.GradScaler()for data, label in data_iter: 
  2.   optimizer.zero_grad() 
  3.   # Casts operations to mixed precision 
  4.   with torch.cuda.amp.autocast(): 
  5.      loss = model(data) 
  6.   # Scales the loss, and calls backward() 
  7.   # to create scaled gradients 
  8.   scaler.scale(loss).backward() 
  9.   # Unscales gradients and calls 
  10.   # or skips optimizer.step() 
  11.   scaler.step(optimizer) 
  12.   # Updates the scale for next iteration 
  13.   scaler.update() 

Huang及其同事在NVIDIA V100 GPU上對一些常用語言和視覺模型進行了基準測試,發現在FP32訓練中使用AMP提高約2倍的訓練速度,最高甚至達到5.5倍。

目前,只有CUDA支持上述方式,查看本文檔了解更多信息。

5. 考慮不同的優化器

AdamW是由fast.ai提出的具有權重衰減(而非 L2 正則化)的Adam, PyTorch中通過torch.optim.AdamW實現。在誤差和訓練時間上,AdamW都優于Adam。查看此文章了解為什么權重衰減使得Adam產生更好效果。

Adam和AdamW都很適合前文提到的1Cycle策略。

此外,LARS和LAMB等其他優化器也收到廣泛關注。

NVIDA的APEX對Adam等常見優化器進行優化融合,相比PyTorch中的原始Adam,由于避免了GPU內存之間的多次傳遞,訓練速度提升約 5%。

6. 打開cudNN基準

如果你的模型架構時固定的,同時輸入大小保持不變,那么設置torch.backends.cudnn.benchmark = True可能會提升模型速度(幫助文檔)。通過啟用cudNN自動調節器,可以在cudNN中對多種計算卷積的方法進行基準測試,然后選擇最快的方法。

至于提速效果,Szymon Migacz在前向卷積時提速70%,在同時向前和后向卷積時提升了27%。

注意,如果你想要根據上述方法最大化批大小,該自動調整可能會非常耗時。

7. 當心CPU與GPU之間的數據傳輸

通過tensor.cpu()可以將張量從GPU傳輸到CPU,反之使用tensor.cuda(),但這樣的數據轉化代價較高。 .item()和.numpy()的使用也是如此,建議使用.detach()。

如果要創建新的張量,使用關鍵字參數device=torch.device('cuda:0')將其直接分配給GPU。

最好使用.to(non_blocking=True)傳輸數據,確保傳輸后沒有任何同步點即可。

另外Santosh Gupta的SpeedTorch也值得一試,盡管其加速與否尚不完全清除。

8.使用梯度/激活檢查點

檢查點通過將計算保存到內存來工作。檢查點在反向傳播算法過程中并不保存計算圖的中間激活,而是在反向傳播時重新計算,其可用于模型的任何部分。

具體來說,在前向傳播中,function以torch.no_grad()方式運行,不存儲任何中間激活。相反,前向傳遞將保存輸入元組和function參數。在反向傳播時,檢索保存的輸入和function,并再次對function進行正向傳播,記錄中間激活,并使用這些激活值計算梯度。

因此,對于特定的批處理大小,這可能會稍微增加運行時間,但會顯著減少內存消耗。反過來,你可以進一步增加批處理大小,從而更好地利用GPU。

雖然檢查點可以通過torch.utils.checkpoint方便實現,但仍需要里哦阿姐其思想與本質。Priya Goyal的教程很清晰的演示了檢查點的一些關鍵思想,推薦閱讀。

9.使用梯度累積

增加批處理大小的另一種方法是在調用Optimizer.step()之對多個.backward()傳遞梯度進行累積。

根據Hugging Face的Thomas Wolf發表的文章,可以按以下方式實現梯度累積: 

  1. model.zero_grad()                                   # Reset gradients tensors    for i, (inputs, labels) in enumerate(training_set):     
  2.    predictions = model(inputs)                     # Forward pass     
  3.    loss = loss_function(predictions, labels)       # Compute loss function     
  4.    loss = loss / accumulation_steps                # Normalize our loss (if averaged)     
  5.    loss.backward()                                 # Backward pass     
  6.    if (i+1) % accumulation_steps == 0:             # Wait for several backward steps     
  7.        optimizer.step()                            # Now we can do an optimizer step     
  8.        model.zero_grad()                           # Reset gradients tensors     
  9.    if (i+1) % evaluation_steps == 0:           # Evaluate the model when we...     
  10.        evaluate_model()                        # ...have no gradients accumulated 

該方法主要是為了規避GPU內存的限制,但對其他.backward()循環之間的取舍我并不清楚。fastai論壇上的討論似乎表明它實際上是可以加速訓練的,因此值得一試。詳情查看GitHub托管的rawgradient_accumulation.py。

10.多GPU分布式訓練

通過分布式訓練加快模型速度的一種簡單的方法是使用torch.nn.DistributedDataParallel而不是torch.nn.DataParallel。這樣,每個GPU將由專用的CPU內核驅動,從而避免了DataParallel的GIL問題。

強烈推薦閱讀分布式訓練相關文檔了解更多信息:

  1. PyTorch Distributed Overview — PyTorch Tutorials 1.7.0 documentation 

11.將梯度設置為None而不是0

設置.zero_grad(set_to_none=True)而不是.zero_grad()。

這樣內存分配器處理梯度而不是主動將其設置為0,這會產生該文檔所示的適度加速,但不要抱有過大期望。

注意,這樣做不會有任何副作用!閱讀文檔查看更多信息。

12.使用.as_tensor()而不是.tensor()

torch.tensor()本質是復制數據,因此,如果要轉換numpy數組,使用torch.as_tensor()或torch.from_numpy()可以避免復制數據。

13.只在需要的時候打開debugging模式

Pytorch提供了許多調試工具,例如autograd.profiler, autograd.grad_check和autograd.anomaly_detection。使用時一定要謹慎,這些調試工具顯然會影響訓練速度,因此在不需要時將其關閉。

14.使用梯度裁剪

為了避免RNN中的梯度爆炸,使用梯度裁剪gradient = min(gradient, threshold)可以起到加速收斂作用,這一方法已得到理論和實驗的支持。

Hugging Face的Transformer提供了將梯度裁剪和AMP等其他方法有效結合的清晰示例。

在PyTorch中,也可使用torch.nn.utils.clip_grad_norm_(文檔查閱)完成此操作。

雖然我尚不完全清楚哪種模型可以從梯度裁剪中受益,但毫無疑問的是,對于RNN、基于Transformer和ResNets結構的一系列優化器來說,該方法顯然是起到一定作用的。

15.在BatchNorm之前忽略偏差

在BatchNormalization層之前關閉之前層的偏差時一種簡單有效的方法。對于二維卷積層,可以通過將bias關鍵字設置為False實現,即torch.nn.Conv2d(..., bias=False, ...)。閱讀該文檔了解其原理。

與其他方法相比,該方法的速度提升是有的。

16. 驗證時關閉梯度計算

在模型驗證時令torch.no_grad()

17. 規范化輸入和批處理

也許你已經在這樣做了,但還是要仔細檢查,反復確認:

  • 是否規范化輸入?
  • 是否規范化批處理?

其他技巧:使用JIT實現逐點融合

如果要執行相鄰逐點操作,可以使用PyTorch JIT將它們組合成一個FusionGroup,然后在單內核上啟動,而不是像默認情況那樣在多個內核上啟動,同時還可以保存一些內存進行讀寫。

Szymon Migacz展示了如何使用@torch.jit.script裝飾器融合GELU操作融合,如下:

  1. @torch.jit.scriptdef fused_gelu(x): return x * 0.5 * (1.0 + torch.erf(x / 1.41421)) 

相比于未融合版本,融合這些操作可以使fused_gelu的執行速度提高5倍。

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

 

責任編輯:未麗燕 來源: 雷鋒網
相關推薦

2020-11-20 10:40:20

PyTorch神經網絡代碼

2023-12-29 14:13:41

PyTorch模型開發

2021-03-25 15:19:33

深度學習Pytorch技巧

2023-10-18 16:02:24

機器學習深度學習ChatGPT

2020-07-08 17:06:00

Python開發工具

2023-03-09 15:45:36

ES6編碼技巧數組

2022-10-08 07:36:08

Kubernetes開源容器

2024-04-03 10:29:13

JavaScrip優化技巧

2023-07-07 14:47:46

JavaScript技巧

2023-01-09 08:00:00

遷移學習機器學習數據集

2021-12-28 08:48:54

PyTorch神經網絡人工智能

2022-05-10 10:19:04

AI深度學習模型

2019-03-10 22:22:06

PyTorchKeras深度學習

2021-06-07 17:46:31

Python 3.8Python編程語言

2023-06-29 15:08:21

JavaScrip開發

2021-08-17 10:08:44

HTML網站網絡

2020-11-29 17:32:01

EmacsLinux

2014-05-07 09:41:21

UbuntuTrusty Tahr

2025-05-07 07:17:18

2020-07-20 10:40:52

Linux命令Ubuntu
點贊
收藏

51CTO技術棧公眾號

黄上黄在线观看| 97久久亚洲| 欧美国产禁国产网站cc| 国产精品高潮呻吟久久av无限 | 国产精品美女www爽爽爽| 欧美一级二级三级九九九| 一本色道久久综合亚洲精品酒店| 精品国产髙清在线看国产毛片| 免费观看黄色网| 成人一区二区三区| 久久婷婷国产综合尤物精品| 秋霞在线一区| 最近2019中文字幕第三页视频| 8888四色奇米在线观看| 亚洲色图视频免费播放| 日韩人妻一区二区三区蜜桃视频| 欧美一区不卡| 国产91色在线|免| 国精品产品一区| 精品国产凹凸成av人导航| 蜜桃免费在线| 亚洲视频每日更新| 国产精品乱码久久久久| 国产91精品露脸国语对白| 热re99久久精品国产99热| 国产精品不卡| 日本午夜在线亚洲.国产| 久久亚洲人体| 亚洲四色影视在线观看| 色屁屁www国产馆在线观看| 色噜噜夜夜夜综合网| 香港经典三级在线| 亚洲免费av高清| 2018高清国产日本一道国产| 91丨porny丨在线| www.成年人视频| 日韩亚洲在线视频| 久久99国产精一区二区三区| 亚洲精品一区二区三区四区五区| 日韩电影大全免费观看2023年上 | 国产免费a∨片在线观看不卡| 亚洲综合清纯丝袜自拍| 亚洲国产成人va在线观看麻豆| 国产亚洲成年网址在线观看| 久久av喷吹av高潮av| 国产亚洲精品超碰| 末成年女av片一区二区下载| 亚洲另类激情图| 精品国产一区二区三区四区 | 欧美日韩中国免费专区在线看| 欧美在线导航| 看高清中日韩色视频| 久久人人97超碰com| 免费高清在线| 91麻豆精品国产91久久久久久久久 | 亚洲人成精品久久久久久| 少妇人妻在线视频| 国产美女精品在线| 欧美人与动牲性行为| 美国av在线播放| 精品国产自在久精品国产| 一本一道久久a久久精品蜜桃| 欧美裸体网站| 国产精品伦一区二区三级视频| 成人高清免费观看mv| 亚洲人成自拍网站| 91女厕偷拍女厕偷拍高清| 自拍偷拍第1页| 国产z一区二区三区| 香蕉久久夜色精品国产| 色婷五月综激情亚洲综合| 亚洲美女www午夜| 亚洲综合99| 日本1级在线| 91精品一区二区三区久久久久久| 国产盗摄——sm在线视频| 欧亚精品中文字幕| 麻豆久久久久久| 在线观看免费观看在线91| 久久久久久久久久国产精品| 91蝌蚪porny| 国产精品xnxxcom| 一本一道久久久a久久久精品91 | 欧美日韩视频免费看| 欧美制服第一页| 国产成人丝袜美腿| 久久99国产精品二区高清软件| 2019日韩中文字幕mv| 综合av第一页| 日韩免费影院| 精品国产乱码久久久久久88av| 亚洲丰满少妇videoshd| 日韩极品在线| 国产女优裸体网站| 国产日韩欧美日韩| 日韩一区二区三区四区五区六区| 国产视频一区二区三区在线观看 | 91蜜桃免费观看视频| 小草av在线播放| 久久久亚洲精品一区二区三区 | av午夜在线| 在线观看欧美www| 欧美日韩伦理在线免费| 日韩亚洲不卡在线| 中文字幕日韩欧美一区二区三区| lutube成人福利在线观看| 精品国产网站地址| 亚洲自拍偷拍网| 浮妇高潮喷白浆视频| 五月天激情综合| 日本综合字幕| 91免费精品国偷自产在线| 国产成人综合在线观看| 在线免费国产| 欧美成人一二三| 久久精品亚洲| 诱人的瑜伽老师3hd中字| 日韩精品免费在线观看| 天天综合网网欲色| 女人另类性混交zo| 亚洲黄色www| 欧美精品二区| 成人福利资源| 久久久91精品国产| 国产在线精品不卡| 欧美一区二区三区| 国产精品视频最多的网站| 26uuu亚洲综合色| 久草成色在线| 成人免费在线看片| 亚洲免费av观看| 日韩一区二区三区精品视频第3页 日韩一区二区三区精品 | 尤物tv在线精品| 欧美亚洲日本一区二区三区| 欧美一区二区三区在| 天天久久综合| 一本色道久久加勒比88综合| 色七七影院综合| 国产一区亚洲一区| 欧美xxxx免费虐| 国内精品二区| 色就色 综合激情| 国产午夜一区| 亚洲欧美久久久久| 中文字幕九色91在线| 老色鬼精品视频在线观看播放| 福利视频在线播放| 亚洲一区二区三区毛片| 夜夜精品视频一区二区| 国产一区丝袜| 邪恶网站在线观看| 欧美高跟鞋交xxxxxhd| 91麻豆蜜桃一区二区三区| av在线播放一区| 僵尸世界大战2 在线播放| 亚洲女同精品视频| 国产激情视频一区二区在线观看 | 99re在线视频免费观看| 国产午夜精品一区理论片飘花| 水蜜桃久久夜色精品一区的特点| 精品无人乱码| 国产一区二区精品在线| 欧美亚洲一区二区在线观看| 欧美一区国产在线| 91在线播放网站| 欧美在线激情| 亚洲国产精品网站| 成人永久看片免费视频天堂| 日本肉肉一区| www.日本xxxx| 69av在线播放| 欧美日韩国产中文精品字幕自在自线| 日韩久久精品网| 精品999视频| 欧美中文娱乐网| 日韩国产高清污视频在线观看| 蜜臀av一区二区在线观看| 日韩免费小视频| 污片在线免费看| 成人免费淫片aa视频免费| 欧美日韩精品专区| 久久国产精品99久久人人澡| 秋霞国产精品| 亚洲一级片免费| 亚洲一区二区三区毛片| 日韩精品一区二区三区swag| 国产精品中文字幕一区二区三区| 国产一区 二区| 日韩欧美电影在线观看| 日本一区二区三区www| 日韩在线视频免费观看| 亚洲欧美日韩在线| 欧美大片专区| 亚洲美女尤物影院| 啊啊啊国产视频| 91黄在线观看| 亚洲国产美女久久久久| 欧美经典一区二区| 国内精品亚洲| 欧美综合社区国产|