国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

大數(shù)據(jù)
隨著深度學(xué)習技術(shù)在機器翻譯、策略游戲和自動駕駛等領(lǐng)域的廣泛應(yīng)用和流行,阻礙該技術(shù)進一步推廣的一個普遍性難題也日漸凸顯:訓(xùn)練模型所必須的海量數(shù)據(jù)難以獲取。本文是一些當前比較流行的機器學(xué)習模型和其所需的數(shù)據(jù)量,可以看到,隨著模型復(fù)雜度的提高,其參數(shù)個數(shù)和所需的數(shù)據(jù)量也是驚人的。

深度學(xué)習大牛吳恩達曾經(jīng)說過:做AI研究就像造宇宙飛船,除了充足的燃料之外,強勁的引擎也是必不可少的。假如燃料不足,則飛船就無法進入預(yù)定軌道。而引擎不夠強勁,飛船甚至不能升空。類比于AI,深度學(xué)習模型就好像引擎,海量的訓(xùn)練數(shù)據(jù)就好像燃料,這兩者對于AI而言同樣缺一不可。

隨著深度學(xué)習技術(shù)在機器翻譯、策略游戲和自動駕駛等領(lǐng)域的廣泛應(yīng)用和流行,阻礙該技術(shù)進一步推廣的一個普遍性難題也日漸凸顯:訓(xùn)練模型所必須的海量數(shù)據(jù)難以獲取。

以下是一些當前比較流行的機器學(xué)習模型和其所需的數(shù)據(jù)量,可以看到,隨著模型復(fù)雜度的提高,其參數(shù)個數(shù)和所需的數(shù)據(jù)量也是驚人的。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

基于這一現(xiàn)狀,本文將從深度學(xué)習的層狀結(jié)構(gòu)入手,介紹模型訓(xùn)練所需的數(shù)據(jù)量和模型規(guī)模的關(guān)系,然后通過一個具體實例介紹遷移學(xué)習在減少數(shù)據(jù)量方面起到的重要作用,***推薦一個可以簡化遷移學(xué)習實現(xiàn)步驟的云工具:NanoNets。

層狀結(jié)構(gòu)的深度學(xué)習模型

深度學(xué)習是一個大型的神經(jīng)網(wǎng)絡(luò),同時也可以被視為一個流程圖,數(shù)據(jù)從其中的一端輸入,訓(xùn)練結(jié)果從另一端輸出。正因為是層狀的結(jié)構(gòu),所以你也可以打破神經(jīng)網(wǎng)絡(luò),將其按層次分開,并以任意一個層次的輸出作為其他系統(tǒng)的輸入重新展開訓(xùn)練。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

數(shù)據(jù)量、模型規(guī)模和問題復(fù)雜度

模型需要的訓(xùn)練數(shù)據(jù)量和模型規(guī)模之間存在一個有趣的線性正相關(guān)關(guān)系。其中的一個基本原理是,模型的規(guī)模應(yīng)該足夠大,這樣才能充分捕捉數(shù)據(jù)間不同部分的聯(lián)系(例如圖像中的紋理和形狀,文本中的語法和語音中的音素)和待解決問題的細節(jié)信息(例如分類的數(shù)量)。模型前端的層次通常用來捕獲輸入數(shù)據(jù)的高級聯(lián)系(例如圖像邊緣和主體等)。模型后端的層次通常用來捕獲有助于做出最終決定的信息(通常是用來區(qū)分目標輸出的細節(jié)信息)。因此,待解決的問題的復(fù)雜度越高(如圖像分類等),則參數(shù)的個數(shù)和所需的訓(xùn)練數(shù)據(jù)量也越大。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

引入遷移學(xué)習

在大多數(shù)情況下,面對某一領(lǐng)域的某一特定問題,你都不可能找到足夠充分的訓(xùn)練數(shù)據(jù),這是業(yè)內(nèi)一個普遍存在的事實。但是,得益于一種技術(shù)的幫助,從其他數(shù)據(jù)源訓(xùn)練得到的模型,經(jīng)過一定的修改和完善,就可以在類似的領(lǐng)域得到復(fù)用,這一點大大緩解了數(shù)據(jù)源不足引起的問題,而這一關(guān)鍵技術(shù)就是遷移學(xué)習。

根據(jù)Github上公布的“引用次數(shù)最多的深度學(xué)習論文”榜單,深度學(xué)習領(lǐng)域中有超過50%的高質(zhì)量論文都以某種方式使用了遷移學(xué)習技術(shù)或者預(yù)訓(xùn)練(Pretraining)。遷移學(xué)習已經(jīng)逐漸成為了資源不足(數(shù)據(jù)或者運算力的不足)的AI項目的***技術(shù)。但現(xiàn)實情況是,仍然存在大量的適用于遷移學(xué)習技術(shù)的AI項目,并不知道遷移學(xué)習的存在。如下圖所示,遷移學(xué)習的熱度遠不及機器學(xué)習和深度學(xué)習。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

遷移學(xué)習的基本思路是利用預(yù)訓(xùn)練模型,即已經(jīng)通過現(xiàn)成的數(shù)據(jù)集訓(xùn)練好的模型(這里預(yù)訓(xùn)練的數(shù)據(jù)集可以對應(yīng)完全不同的待解問題,例如具有相同的輸入,不同的輸出)。開發(fā)者需要在預(yù)訓(xùn)練模型中找到能夠輸出可復(fù)用特征(feature)的層次(layer),然后利用該層次的輸出作為輸入特征來訓(xùn)練那些需要參數(shù)較少的規(guī)模更小的神經(jīng)網(wǎng)絡(luò)。

由于預(yù)訓(xùn)練模型此前已經(jīng)習得了數(shù)據(jù)的組織模式(patterns),因此這個較小規(guī)模的網(wǎng)絡(luò)只需要學(xué)習數(shù)據(jù)中針對特定問題的特定聯(lián)系就可以了。此前流行的一款名為Prisma的修圖App就是一個很好的例子,它已經(jīng)預(yù)先習得了梵高的作畫風格,并可以將之成功應(yīng)用于任意一張用戶上傳的圖片中。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

值得一提的是,遷移學(xué)習帶來的優(yōu)點并不局限于減少訓(xùn)練數(shù)據(jù)的規(guī)模,還可以有效避免過度擬合(overfit),即建模數(shù)據(jù)超出了待解問題的基本范疇,一旦用訓(xùn)練數(shù)據(jù)之外的樣例對系統(tǒng)進行測試,就很可能出現(xiàn)無法預(yù)料的錯誤。但由于遷移學(xué)習允許模型針對不同類型的數(shù)據(jù)展開學(xué)習,因此其在捕捉待解問題的內(nèi)在聯(lián)系方面的表現(xiàn)也就更優(yōu)秀。如下圖所示,使用了遷移學(xué)習技術(shù)的模型總體上性能更優(yōu)秀。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

遷移學(xué)習到底能消減多少訓(xùn)練數(shù)據(jù)?

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

這里以此前網(wǎng)上流行的一個連衣裙圖片為例。如圖所示,如果你想通過深度學(xué)習判斷這條裙子到底是藍黑條紋還是白金條紋,那就必須收集大量的包含藍黑條紋或者白金條紋的裙子的圖像數(shù)據(jù)。參考上文提到的問題規(guī)模和參數(shù)規(guī)模之間的對應(yīng)關(guān)系,建立這樣一個精準的圖像識別模型至少需要140M個參數(shù),1.2M張相關(guān)的圖像訓(xùn)練數(shù)據(jù),這幾乎是一個不可能完成的任務(wù)。

現(xiàn)在引入遷移學(xué)習,用如下公式可以得到在遷移學(xué)習中這個模型所需的參數(shù)個數(shù):

No. of parameters = [Size(inputs) + 1] * [Size(outputs) + 1] = [2048+1]*[1+1]~ 4098 parameters

可以看到,通過遷移學(xué)習的引入,針對同一個問題的參數(shù)個數(shù)從140M減少到了4098,減少了10的5次方個數(shù)量級!這樣的對參數(shù)和訓(xùn)練數(shù)據(jù)的消減程度是驚人的。

一個遷移學(xué)習的具體實現(xiàn)樣例

在本例中,我們需要用深度學(xué)習技術(shù)對電影短評進行文本傾向性分析,例如“It was great,loved it.”表示積極正面的評論,“It was really stupid.”表示消極負面的評論。

假設(shè)現(xiàn)在可以得到的數(shù)據(jù)規(guī)模只有72條,其中62條沒有經(jīng)過預(yù)先的傾向性標記,用來預(yù)訓(xùn)練。8條經(jīng)過了預(yù)先的傾向性標記,用來訓(xùn)練模型。2條也經(jīng)過了預(yù)先的傾向性標記,用來測試模型。

由于我們只有8條經(jīng)過預(yù)先標記的訓(xùn)練數(shù)據(jù),如果直接以這樣的數(shù)據(jù)量對模型展開訓(xùn)練,無疑最終的測試準確率將非常低。(因為判斷結(jié)果只有正面和負面兩種,因此可以預(yù)見最終的測試準確率可能只有50%)

為了解決這個難題,我們引入遷移學(xué)習。即首先用62條未經(jīng)標記的數(shù)據(jù)對模型展開通用的情感判斷,然后在這一預(yù)訓(xùn)練的基礎(chǔ)上對本例的特定問題展開分析,復(fù)用預(yù)訓(xùn)練模型中的部分層次,就可以將最終的測試準確率提升到100%。下面將從3個步驟展開分析。

步驟1

創(chuàng)建預(yù)訓(xùn)練模型來分析詞與詞之間的關(guān)系。這里我們通過分析未標記語句中的某一詞匯,嘗試預(yù)測出現(xiàn)在同一句子中的其他詞匯。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

步驟2

對模型展開訓(xùn)練,使得出現(xiàn)在類似上下文中的詞匯獲得類似的向量表示。在這一步驟中,62條待處理語句首先會被刪除停用詞,并被標記解釋。之后,針對每個詞匯,系統(tǒng)會嘗試減小其向量表示與相關(guān)詞匯的差別,并增加其與不相關(guān)詞匯的差別。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

步驟3

預(yù)測一個句子的文本傾向性。由于在此前的預(yù)訓(xùn)練模型中我們已經(jīng)得到了針對所有詞匯的向量表示,并且這些向量具有用數(shù)字表征的每個詞匯的上下文屬性,這將使得文本的傾向性分析變得更易于實現(xiàn)。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

需要注意的是,這里并非直接使用10個已經(jīng)被預(yù)先標記的句子,而是先將句子的向量設(shè)置為其所有詞匯的平均值(在實際任務(wù)中,我們將使用類似時間遞歸神經(jīng)網(wǎng)絡(luò)LSTM的相關(guān)原理)。這樣,經(jīng)過平均化處理的句子向量將作為輸入數(shù)據(jù)導(dǎo)入模型,而句子的正面或負面判定將作為結(jié)果輸出。需要特別強調(diào)的是,這里我們在預(yù)訓(xùn)練模型和10個被預(yù)先標記的句子之間加入了一個隱藏層(hidden layer),用來適配文本傾向性分析這一特定場景。正如你所看到的,這里只用10個標記量就實現(xiàn)了100%的預(yù)測準確率。

當然,必須指出的是,這里展示的只是一個非常簡單的模型示意,而且測試用例只有2條。但不可否認的一點是,由于遷移學(xué)習的引入,確實使得本例中的文本傾向性預(yù)測準確率從50%提升到了100%。

遷移學(xué)習的實現(xiàn)難點

雖然遷移學(xué)習的引入可以顯著減少模型對訓(xùn)練數(shù)據(jù)量的要求,但同時也意味著更多的專業(yè)調(diào)教。從上面的例子就能看出,只是考慮這些海量的必須硬編碼實現(xiàn)的參數(shù)數(shù)量,以及圍繞這些參數(shù)進行的繁雜的調(diào)試過程,就足夠讓人望而生畏了。而這也是遷移學(xué)習在實際應(yīng)用中難以進一步推廣的重要阻礙之一。這里我們總結(jié)了8條常見的遷移學(xué)習的實現(xiàn)難點。

  1. 獲取一個相對大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)
  2. 選擇一個合適的預(yù)訓(xùn)練模型
  3. 難以排查哪個模型沒有發(fā)揮作用
  4. 不知道需要多少額外數(shù)據(jù)來訓(xùn)練模型
  5. 難以判斷應(yīng)該在什么情況下停止預(yù)訓(xùn)練
  6. 決定預(yù)訓(xùn)練模型的層次和參數(shù)個數(shù)
  7. 代理和服務(wù)于組合模型
  8. 當獲得更多數(shù)據(jù)或者更好的算法時,預(yù)訓(xùn)練模型難以更新

NanoNets工具

NanoNets是一個簡單方便的基于云端實現(xiàn)的遷移學(xué)習工具,其內(nèi)部包含了一組已經(jīng)實現(xiàn)好的預(yù)訓(xùn)練模型,每個模型有數(shù)百萬個訓(xùn)練好的參數(shù)。用戶可以自己上傳或通過網(wǎng)絡(luò)搜索得到數(shù)據(jù),NanoNets將自動根據(jù)待解問題選擇***的預(yù)訓(xùn)練模型,并根據(jù)該模型建立一個NanoNets(納米網(wǎng)絡(luò)),并將之適配到用戶的數(shù)據(jù)。NanoNets和預(yù)訓(xùn)練模型之間的關(guān)系結(jié)構(gòu)如下所示。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

 

以上文提到的藍黑條紋還是白金條紋的連衣裙為例,用戶只需要選擇待分類的名稱,然后自己上傳或者網(wǎng)絡(luò)搜索訓(xùn)練數(shù)據(jù),之后NanoNets就會自動適配預(yù)訓(xùn)練模型,并生成用于測試的web頁面和用于進一步開發(fā)的API接口。如下所示,圖中為系統(tǒng)根據(jù)一張連衣裙圖片給出的分析結(jié)果。

數(shù)據(jù)不夠怎么訓(xùn)練深度學(xué)習模型?不妨試試遷移學(xué)習

具體使用方法詳見NanoNets官網(wǎng)。

責任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2023-01-09 08:00:00

遷移學(xué)習機器學(xué)習數(shù)據(jù)集

2017-05-17 15:09:06

深度學(xué)習人工智能

2017-06-11 21:55:47

深度學(xué)習神經(jīng)網(wǎng)絡(luò)模型

2017-12-26 13:53:31

深度學(xué)習遷移學(xué)習

2020-03-02 17:03:32

深度學(xué)習人工智能機器學(xué)習

2018-03-26 20:12:42

深度學(xué)習

2022-05-10 10:19:04

AI深度學(xué)習模型

2020-11-02 14:38:56

Java 深度學(xué)習模型

2020-01-20 14:25:19

數(shù)據(jù)平臺架構(gòu)

2022-02-11 10:46:25

人工智能機器學(xué)習深度學(xué)習

2023-02-23 07:46:48

學(xué)習模型數(shù)據(jù)倉庫

2020-08-10 15:05:02

機器學(xué)習人工智能計算機

2025-10-21 08:00:00

2020-10-13 14:42:42

深度學(xué)習Windows人工智能

2023-01-27 23:31:08

數(shù)據(jù)長輪詢長連接

2020-05-21 14:05:17

TFserving深度學(xué)習架構(gòu)

2022-03-28 09:00:00

SQL數(shù)據(jù)庫機器學(xué)習

2017-03-24 15:58:46

互聯(lián)網(wǎng)

2023-11-19 23:36:50

2017-04-25 18:03:11

Caffe深度學(xué)習框架
點贊
收藏

51CTO技術(shù)棧公眾號

欧美精品日韩三级| 日韩一区二区在线| 女生影院久久| 91在线观看免费观看| 久久久久久久国产| 日韩三级影院| 中文字幕一区二区在线播放| 四虎永久国产精品| 久久性感美女视频| 久久影视免费观看| free性m.freesex欧美| 午夜久久久久久久久| 国产在线观看福利| 久久精品72免费观看| 成人看片视频| 米奇777超碰欧美日韩亚洲| 色8久久影院午夜场| 一本色道久久| 日韩av成人在线| 97精品国产综合久久久动漫日韩| 在线观看国产日韩| 欧美变态xxxx| 久久久久久9999| 正在播放国产精品| 中文一区在线| 亚洲伊人成综合成人网| 亚洲专区视频| 国内精品一区二区三区| 欧美大陆国产| 一区二区三区无码高清视频| 超碰在线中文字幕| 777奇米成人网| 黑人与亚洲人色ⅹvideos| 国产精品美女久久久久久久网站| 黄网站欧美内射| 国产麻豆精品视频| 欧美黑白配在线| 男人的天堂avav| 日韩黄色免费网站| 国产特级嫩嫩嫩bbb| 国产精品国产三级国产普通话三级| 国产精品二区在线观看| 狠狠入ady亚洲精品| 91精品国产高清| 高清日韩欧美| 日韩成人av网址| 亚洲成人在线网| 久久久久久77777| 国产成人精品三级麻豆| 国产免费一区二区三区在线观看 | 日韩在线视频在线观看| 丁香五月缴情综合网| 精品激情国产视频| 精精国产xxxx视频在线中文版| 欧美日韩国产乱码电影| 女同一区二区免费aⅴ| 欧亚精品在线观看| 久久久精品日韩欧美| 欧美18—19sex性hd| 国产精品视频免费一区二区三区| 国产高清亚洲一区| 国产色一区二区三区| 国产在线一区二区| 交100部在线观看| 性欧美激情精品| 美女视频网站久久| 天堂av中文在线资源库| 国产一区二区三区在线视频| 日本高清视频在线播放| 日韩视频精品在线| 国产精品三级av| 国产精品伦理久久久久久| 欧美hdsex| 91亚洲国产成人精品一区二三| 欧美伦理免费在线| 亚洲精品二三区| 日韩不卡一区| 欧美精品电影| 激情五月五月婷婷| 亚洲成人国产精品| 国产精品网曝门| 久久久亚洲精品无码| 久久久久久国产三级电影| 琪琪一区二区三区| 四虎视频在线精品免费网址| 国产一区二区av| 99精品美女视频在线观看热舞| 欧美激情精品久久久| 亚洲成人av| 狠狠噜天天噜日日噜| 中文字幕av一区二区三区高| 亚洲52av| 在线国产精品视频| 欧美日韩一区二区三区视频播放| 久久本道综合色狠狠五月| 久久亚洲美女| 久热免费在线观看| 欧美午夜精品理论片a级按摩| 色黄视频在线观看| 人妖精品videosex性欧美| 亚洲人成人一区二区三区| 久久免费视频3| 色www精品视频在线观看| 日韩欧美精品一区二区综合视频| 成人www视频在线观看| 国产不卡免费视频| 成人在线视频成人| 精品国产一区二区三区久久久狼 | 国产秀色在线www免费观看| 中文字幕成人精品久久不卡| 区一区二视频| 久久男人资源站| 欧美性xxxxxxxxx| 国产视频一区二| 久久久亚洲综合网站| 亚洲欧洲日韩在线| 性欧美超级视频| 国内视频一区| 中文字幕日本不卡| 日本欧美一区| 欧美一区二区视频在线| 亚洲成av人片在线观看| 99视频有精品高清视频| 五月天亚洲综合小说网| 色偷偷88欧美精品久久久| а√中文在线天堂精品| 欧美一级免费在线观看| 欧美午夜精品一区二区三区| 欧美精选一区二区三区| 99久久久无码国产精品6| 亚洲激情自拍图| 亚洲久久视频| 你懂的在线免费观看| 欧美极度另类性三渗透| 国产综合色精品一区二区三区| 国产一区精品| 奇米4444一区二区三区 | 欧美精品丝袜中出| 成人免费av| 亚洲成人福利在线| 国产亚洲成精品久久| 日韩一区欧美二区| 污网站视频在线观看| 国产mv久久久| 国产精品二区一区二区aⅴ污介绍| 91精品国产经典在线观看| 日韩精品一区二区三区外面| 狠狠躁夜夜躁人人躁婷婷91| 伊人久久大香线蕉av不卡| 丰满少妇在线观看| 精品国偷自产在线视频| 国产成人日日夜夜| 成人一区福利| 久久综合亚洲精品| 亚洲第一区在线| 美女免费视频一区二区| 国产在线观看免费| 狠狠操一区二区三区| 中国国产一级毛片| 91精品国产吴梦梦| 欧美亚洲视频在线观看| 日韩欧美在线视频| 日韩一级在线免费观看| 亚洲欧美电影院| 九九综合久久| 国产又爽又黄ai换脸| 亚洲电影第1页| 日韩电影一区二区三区四区| 成人区精品一区二区不卡| 久久久久久久有限公司| 欧美午夜精品一区二区三区 | 精品国产乱码久久久久久蜜柚 | 亚洲а∨天堂久久精品喷水| 首页综合国产亚洲丝袜| 七七成人影院| av不卡在线免费观看| 亚洲欧美日韩中文在线| 国产高清无密码一区二区三区| 国产精品第一国产精品| 麻豆传传媒久久久爱| 午夜精品久久久久久99热| 一区二区三区中文在线| 欧美韩日精品| 羞羞视频在线观看免费| www婷婷av久久久影片| 久热99视频在线观看| 亚洲特黄一级片| 色婷婷亚洲mv天堂mv在影片| 日韩精品视频无播放器在线看| 亚洲一区中文字幕| 日韩免费观看高清完整版| 成人免费看黄yyy456| 日韩极品在线| 国产小视频福利在线| 亚洲图片小说在线| 欧美成人免费网| 欧美性xxxx在线播放| 麻豆视频观看网址久久| 精品国产一区二区三区成人影院| 国产黄色免费在线观看|