国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

90%論文都是以模型為中心,AI領(lǐng)域,數(shù)據(jù)和模型到底哪個(gè)重要?

人工智能 機(jī)器學(xué)習(xí) 新聞
在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)重要還是模型重要?這是一個(gè)很難回答的問題。

模型和數(shù)據(jù)是 AI 系統(tǒng)的基礎(chǔ),這兩個(gè)組件在模型的開發(fā)中扮演著重要的角色。

人工智能領(lǐng)域最權(quán)威的學(xué)者之一吳恩達(dá)曾提出「80% 的數(shù)據(jù) + 20% 的模型 = 更好的機(jī)器學(xué)習(xí)」,他認(rèn)為一個(gè)團(tuán)隊(duì)研究 80% 的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,數(shù)據(jù)質(zhì)量是重要的,但很少有人在乎。如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心,機(jī)器學(xué)習(xí)會(huì)發(fā)展的更快。

我們不禁會(huì)問,機(jī)器學(xué)習(xí)的進(jìn)步是模型帶來的還是數(shù)據(jù)帶來的,目前還沒有一個(gè)明確的答案。

在本文中,Android 開發(fā)者和機(jī)器學(xué)習(xí)愛好者 Harshil Patel 介紹了「機(jī)器學(xué)習(xí):以數(shù)據(jù)為中心 VS 以模型為中心」,通過對(duì)比以確定兩者中哪個(gè)更重要,此外,Patel 還介紹了如何使用以數(shù)據(jù)為中心的基礎(chǔ)設(shè)施。


以數(shù)據(jù)為中心的方法 VS 以模型為中心的方法

以模型為中心的方法意味著需要通過實(shí)驗(yàn)來提高機(jī)器學(xué)習(xí)模型性能,這涉及模型架構(gòu)的選擇、訓(xùn)練過程。而在以模型為中心的方法中,你需要保持?jǐn)?shù)據(jù)相同,通過改進(jìn)代碼和模型架構(gòu)來提高性能。此外,對(duì)代碼的改進(jìn)是以模型為中心的根本目標(biāo)。

目前,大多數(shù) AI 應(yīng)用都是以模型為中心的,其中一個(gè)可能的原因是學(xué)術(shù)研究非常重視 AI 領(lǐng)域。根據(jù)吳恩達(dá)的說法,AI 領(lǐng)域 90% 以上的研究論文都是以模型為中心的,因?yàn)槲覀兒茈y創(chuàng)建大型數(shù)據(jù)集,使其成為公認(rèn)的標(biāo)準(zhǔn)。因此,AI 社區(qū)認(rèn)為以模型為中心的機(jī)器學(xué)習(xí)更有前景。研究者在專注于模型的同時(shí),往往會(huì)忽略數(shù)據(jù)的重要性。

對(duì)于研究者而言,數(shù)據(jù)是每個(gè)決策過程的核心,以數(shù)據(jù)為中心的公司通過使用其運(yùn)營(yíng)產(chǎn)生的信息,可以獲得更準(zhǔn)確、更有條理、更透明的結(jié)果,從而可以幫助公司組織更順利地運(yùn)行。以數(shù)據(jù)為中心的方法涉及系統(tǒng)地改進(jìn)、改進(jìn)數(shù)據(jù)集,以提高 ML 應(yīng)用程序的準(zhǔn)確性,對(duì)數(shù)據(jù)進(jìn)行處理是以數(shù)據(jù)為中心的中心目標(biāo)。

數(shù)據(jù)驅(qū)動(dòng) VS 以數(shù)據(jù)為中心

許多人經(jīng)常混淆「以數(shù)據(jù)為中心」和「數(shù)據(jù)驅(qū)動(dòng)」這兩個(gè)概念。數(shù)據(jù)驅(qū)動(dòng)是一種從數(shù)據(jù)中收集、分析和提取見解的方法,它有時(shí)被稱為「分析」。另一方面,以數(shù)據(jù)為中心的方法側(cè)重于使用數(shù)據(jù)來定義應(yīng)該首先創(chuàng)建的內(nèi)容;而以數(shù)據(jù)為中心的架構(gòu)指的是一個(gè)系統(tǒng),其中數(shù)據(jù)是主要和永久的資產(chǎn)。數(shù)據(jù)驅(qū)動(dòng)架構(gòu)意味著通過利用大量數(shù)據(jù)來創(chuàng)建技術(shù)、技能和環(huán)境。

對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師來說,以模型為中心的方法似乎更受歡迎。這是因?yàn)閺臉I(yè)者可以利用自身知識(shí)儲(chǔ)備來解決特定問題。另一方面,沒有人愿意花大量時(shí)間去標(biāo)注數(shù)據(jù)。

然而,在當(dāng)今的機(jī)器學(xué)習(xí)中,數(shù)據(jù)至關(guān)重要,但在 AI 發(fā)展中卻經(jīng)常被忽視和處理不當(dāng)。由于數(shù)據(jù)錯(cuò)誤,研究者可能花費(fèi)大量時(shí)間進(jìn)行查錯(cuò)。模型精度較低的根本原因可能不是來自模型本身,而是來自錯(cuò)誤的數(shù)據(jù)集。

除了關(guān)注數(shù)據(jù)外,模型和代碼也很重要。但研究者往往傾向于在關(guān)注模型的同時(shí)忽略數(shù)據(jù)的重要性。最好的方法是同時(shí)關(guān)注數(shù)據(jù)和模型的混合方法。根據(jù)應(yīng)用程序的不同,研究者應(yīng)該兼顧數(shù)據(jù)和模型。

以數(shù)據(jù)為中心的基礎(chǔ)架構(gòu)

以模型為中心的機(jī)器學(xué)習(xí)系統(tǒng)主要關(guān)注模型架構(gòu)優(yōu)化及其參數(shù)優(yōu)化。

以模型為中心的 ML 應(yīng)用程序

上圖中描述的是以模型為中心的工作流適用于少數(shù)行業(yè),如媒體、廣告、醫(yī)療保健或制造業(yè)。但也可能面臨如下挑戰(zhàn):

  • 需要高級(jí)定制系統(tǒng):不同于媒體和廣告行業(yè),許多企業(yè)無法使用單一的機(jī)器學(xué)習(xí)系統(tǒng)來檢測(cè)其產(chǎn)品的生產(chǎn)故障。雖然媒體公司可以負(fù)擔(dān)得起有一個(gè)完整的 ML 部門來處理優(yōu)化問題,但需要多個(gè) ML 解決方案的制造企業(yè)不能按照這樣的模板進(jìn)行實(shí)施;
  • 大型數(shù)據(jù)集的重要性:在大多數(shù)情況下,公司沒有大量數(shù)據(jù)可供使用。相反,他們經(jīng)常被迫處理微小的數(shù)據(jù)集,如果他們的方法是以模型為中心的,那么這些數(shù)據(jù)集很容易產(chǎn)生令人失望的結(jié)果。

吳恩達(dá)曾在他的 AI 演講中解釋了他如何相信以數(shù)據(jù)為中心的 ML 更有價(jià)值,并倡導(dǎo)社區(qū)朝著以數(shù)據(jù)為中心的方向發(fā)展。他曾經(jīng)舉了一個(gè)「鋼鐵缺陷檢測(cè)」的例子,其中以模型為中心的方法未能提高模型的準(zhǔn)確率,而以數(shù)據(jù)為中心的方法將準(zhǔn)確率提高了 16%。

以數(shù)據(jù)為中心的 ML 應(yīng)用程序

在實(shí)施以數(shù)據(jù)為中心的架構(gòu)時(shí),可以將數(shù)據(jù)視為比應(yīng)用程序和基礎(chǔ)架構(gòu)更耐用的基本資產(chǎn)。以數(shù)據(jù)為中心的 ML 使數(shù)據(jù)共享和移動(dòng)變得簡(jiǎn)單。那么,在以數(shù)據(jù)為中心的機(jī)器學(xué)習(xí)到底涉及什么?在實(shí)現(xiàn)以數(shù)據(jù)為中心的方法時(shí),我們應(yīng)該考慮以下因素:

  • 數(shù)據(jù)標(biāo)簽質(zhì)量:當(dāng)大量的圖像被錯(cuò)誤標(biāo)記時(shí),會(huì)出現(xiàn)意想不到的錯(cuò)誤,因此需要提高數(shù)據(jù)標(biāo)注質(zhì)量;
  • 數(shù)據(jù)增強(qiáng):讓有限的數(shù)據(jù)產(chǎn)生更多的數(shù)據(jù),增加訓(xùn)練樣本的數(shù)量以及多樣性(噪聲數(shù)據(jù)),提升模型穩(wěn)健性;
  • 特征工程:通過改變輸入數(shù)據(jù)、先驗(yàn)知識(shí)或算法向模型添加特征,常被用于機(jī)器學(xué)習(xí),以幫助提高預(yù)測(cè)模型的準(zhǔn)確性;
  • 數(shù)據(jù)版本控制:開發(fā)人員通過比較兩個(gè)版本來跟蹤錯(cuò)誤并查看沒有意義的內(nèi)容,數(shù)據(jù)版本控制是維護(hù)數(shù)據(jù)中最不可或缺的步驟之一,它可以幫助研究者跟蹤數(shù)據(jù)集的更改(添加和刪除),版本控制使代碼協(xié)作和數(shù)據(jù)集管理變得更加容易;
  • 領(lǐng)域知識(shí):在以數(shù)據(jù)為中心的方法中,領(lǐng)域知識(shí)非常有價(jià)值。領(lǐng)域?qū)<彝ǔ?梢詸z測(cè)到 ML 工程師、數(shù)據(jù)科學(xué)家和標(biāo)注人員無法檢測(cè)到的細(xì)微差異,ML 系統(tǒng)中仍然缺少涉及領(lǐng)域?qū)<业膬?nèi)容。如果有額外的領(lǐng)域知識(shí)可用,ML 系統(tǒng)可能會(huì)表現(xiàn)得更好。

應(yīng)該優(yōu)先考慮哪一個(gè):數(shù)據(jù)數(shù)量還是數(shù)據(jù)質(zhì)量?

需要強(qiáng)調(diào)的是,數(shù)據(jù)量多并不等同于數(shù)據(jù)質(zhì)量好。當(dāng)然,訓(xùn)練神經(jīng)網(wǎng)絡(luò)不能只用幾張圖就能完成,數(shù)據(jù)數(shù)量是一個(gè)方面,但現(xiàn)在的重點(diǎn)是質(zhì)量而不是數(shù)量。

如上圖所示,大多數(shù) Kaggle 數(shù)據(jù)集并沒有那么大。在以數(shù)據(jù)為中心的方法中,數(shù)據(jù)集的大小并不那么重要,并且可以使用質(zhì)量較小的數(shù)據(jù)集完成更多的工作。不過需要注意的是,數(shù)據(jù)質(zhì)量高且標(biāo)注正確。

上圖中是另一種標(biāo)注數(shù)據(jù)的方式,單獨(dú)或組合標(biāo)注。例如,如果數(shù)據(jù)科學(xué)家 1 單獨(dú)標(biāo)注菠蘿,而數(shù)據(jù)科學(xué)家 2 將其組合標(biāo)注,則兩者標(biāo)注的數(shù)據(jù)不兼容,導(dǎo)致學(xué)習(xí)算法變得混亂。因此,需要將數(shù)據(jù)標(biāo)簽保持一致;如果需要單獨(dú)標(biāo)注,請(qǐng)確保所有標(biāo)注都以相同的方式進(jìn)行。

上圖為吳恩達(dá)解釋了小數(shù)據(jù)集一致性的重要性

到底需要多少數(shù)據(jù)?

數(shù)據(jù)質(zhì)量不可忽視,但數(shù)據(jù)量也是至關(guān)重要的,研究者必須有足夠的數(shù)據(jù)支撐才能解決問題。深度網(wǎng)絡(luò)具有低偏差、高方差特性,我們可以預(yù)見更多的數(shù)據(jù)可以解決方差問題。但是多少數(shù)據(jù)才夠呢?目前這個(gè)問題還很難回答,不過我們可以認(rèn)為擁有大量的數(shù)據(jù)是一種優(yōu)勢(shì),但也不是必須的。

如果你采用以數(shù)據(jù)為中心的方法,請(qǐng)記住以下幾點(diǎn):

  • 確保在整個(gè) ML 項(xiàng)目周期中數(shù)據(jù)保持一致;
  • 數(shù)據(jù)標(biāo)注保持一致;
  • 要及時(shí)反饋結(jié)果;
  • 進(jìn)行錯(cuò)誤分析;
  • 消除噪聲樣本。

那么,我們哪里可以找到高質(zhì)量的數(shù)據(jù)集?這里推薦幾個(gè)網(wǎng)站,首先是 Kaggle:在 Kaggle 中,你會(huì)找到進(jìn)行數(shù)據(jù)科學(xué)工作所需的所有代碼和數(shù)據(jù),Kaggle 擁有超過 50,000 個(gè)公共數(shù)據(jù)集和 400,000 個(gè)公共 notebook,可以快速完成任務(wù)。

其次是 Datahub.io:Datahub 是一個(gè)主要專注于商業(yè)和金融的數(shù)據(jù)集平臺(tái)。許多數(shù)據(jù)集,例如國(guó)家、人口和地理邊界列表,目前在 DataHub 上可用。

最后是 Graviti Open Datasets:Graviti 是一個(gè)新的數(shù)據(jù)平臺(tái),主要為計(jì)算機(jī)視覺提供高質(zhì)量的數(shù)據(jù)集。個(gè)人開發(fā)人員或組織可以輕松訪問、共享和更好地管理開放數(shù)據(jù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-03-31 14:33:49

人工智能數(shù)據(jù)開發(fā)自然語言

2025-03-28 09:46:05

AI算法AI人工智能

2024-01-31 09:00:12

人工智能數(shù)據(jù)模型

2022-08-17 15:41:08

AI機(jī)器學(xué)習(xí)

2021-07-30 13:35:43

共享內(nèi)存 Actor

2023-04-23 08:00:00

人工智能ChatGPTGPT模型

2021-07-14 10:09:05

架構(gòu)模型數(shù)據(jù)

2024-04-23 07:52:25

2012-07-06 13:31:05

EVB虛擬化數(shù)據(jù)中心

2023-11-16 16:37:02

2021-01-15 13:18:39

數(shù)據(jù)模型領(lǐng)域模型代碼

2018-08-27 08:13:18

人工智能教育AI

2021-01-27 10:32:42

AI機(jī)器學(xué)習(xí)數(shù)據(jù)中心

2023-12-20 13:34:56

2023-11-27 12:24:23

算法模型業(yè)務(wù)模型

2023-05-22 09:22:41

論文CV

2025-09-22 10:14:08

2023-10-30 09:42:29

自動(dòng)駕駛模型

2023-05-29 08:00:00

ChatGPT人工智能機(jī)器學(xué)習(xí)

2022-08-12 15:41:11

神經(jīng)網(wǎng)絡(luò)架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产极品人妖在线观看| 中文字幕一区二区三区精彩视频| 免费在线超碰| 国产女同互慰高潮91漫画| 国产精品久久久久久久小唯西川 | 成人国产免费视频| 911久久香蕉国产线看观看| 久久在线免费观看视频| 中文字幕影音在线| 日韩一区二区三区三四区视频在线观看 | 国产精品色哟哟| 黄色片视频在线播放| 91精品产国品一二三产区| 天使と恶魔の榨精在线播放| 亚洲mv大片欧洲mv大片精品| 久久婷婷五月综合色国产香蕉| 麻豆精品视频在线| 日本一区视频在线| 小嫩嫩精品导航| 精品不卡在线| 影音先锋亚洲精品| 成人免费看片网址| 国产精品a久久久久| 成人黄色午夜影院| 久久综合88| 97久草视频| 国产一区二区三区久久久久久久久 | 欧美视频完全免费看| 国产女主播在线直播| 欧美影院一区二区三区| 青梅竹马是消防员在线| 欧美影院一区二区三区| 最新日本在线观看| 亚洲欧美在线看| 四虎视频在线精品免费网址| 欧美日韩国产第一页| 免费欧美一区| 91黄在线观看| 日本午夜一本久久久综合| 成人在线观看www| 99久久99久久免费精品蜜臀| 台湾十八成人网| 午夜久久久久久| 国产丝袜在线| 中文字幕日韩欧美精品在线观看| 亚洲网址在线观看| 亚洲一区二区在线| 激情久久五月天| 久草福利视频在线| 91成人网在线| 国产精品迅雷| 国产91免费看片| 丝袜美腿亚洲一区二区图片| 六月丁香激情网| 午夜视频在线观看一区二区| 一级日本在线| 久久精品国产亚洲精品2020| 日韩一区电影| 中文一区一区三区免费| 国产精品久久综合| 黄网站在线免费| 久久久精品亚洲| 午夜精品999| 日韩精品一区二区三区电影| 国产精品美女一区二区| 在线观看美女网站大全免费| 亚洲图中文字幕| 我不卡影院28| 精品无码一区二区三区在线| 精品久久久国产精品999| 97在线超碰| 蜜桃av一区二区三区| 91九色在线观看视频| 亚洲第一搞黄网站| 性欧美gay| 国产精品一区久久| 国产成人av一区二区三区在线观看| 成人影院一区二区三区| 精品乱人伦小说| 日韩有码av| 日本在线视频www色| 欧美性69xxxx肥| av成人在线网站| 久久久久se| 一区二区久久久久| 三级成人黄色影院| 国产精品免费一区二区三区四区| 久久久久九九视频| 免费看啪啪网站| 狠狠爱一区二区三区| 国产一区二区三区在线观看免费 | 国产一区二区色| 懂色av一区二区三区免费看| 欧美美乳在线| 欧美激情精品久久久久久久变态| 一本不卡影院| 在线观看成年人视频| 中文字幕在线看视频国产欧美| 亚洲人成高清| bdsm精品捆绑chinese| 久久国产精品亚洲| 久久草av在线| 一广人看www在线观看免费视频| 欧美伊久线香蕉线新在线| 国产精品 日产精品 欧美精品| av免费在线一区二区三区| 午夜精品美女自拍福到在线| 国产精品一区免费在线观看| 拍真实国产伦偷精品| 91亚洲精品在线| 亚洲一区在线观看视频| 久久视频社区| 成人av在线播放观看| 日韩片之四级片| 亚洲特色特黄| 久草福利在线视频| 成人国产精品av| 亚洲精品久久嫩草网站秘色| 日韩精品一区二区三区中文在线| 欧美美女黄色网| 日韩高清不卡av| 奇米777欧美一区二区| 黄色成人在线| 九色视频成人porny| 91国内精品野花午夜精品| 欧美精品久久久久久久久25p| 国产日韩高清在线| 91国内外精品自在线播放| 伊人久久青草| 国产婷婷色综合av蜜臀av| 久久99精品国产.久久久久| 精灵使的剑舞无删减版在线观看| 久久精彩视频| 日韩亚洲国产中文字幕欧美| 国产精品日本| 黑人精品视频| 中文字幕在线亚洲三区| 精品国精品自拍自在线| 免费不卡在线观看| a√中文在线观看| 欧美一区二区三区综合| 在线观看国产欧美| av高清不卡在线| 一区二区中文字幕在线观看| 天天色综合4| 国产精品流白浆视频| 欧美视频在线观看 亚洲欧| 国模吧视频一区| 青青草视频在线免费直播| 国产经典久久久| 欧美高跟鞋交xxxxxhd| 亚洲色欲色欲www| 天堂网在线观看国产精品| 在线观看完整版免费| 伊人久久青草| 蜜臀久久99精品久久久无需会员| 久久精品人人做人人综合| 农村少妇一区二区三区四区五区 | 久久色在线视频| 欧美大片网址| 黄网站app在线观看下载视频大全官网 | 国产精品视频入口| 精品欧美久久久| 国产99精品视频| 久久免费视频66| 小草在线视频在线免费视频| 99视频在线| 亚洲国产精品久久| 97久久超碰国产精品| 一区二区美女| 亚洲国产精品www| 最近中文字幕mv在线一区二区三区四区| 91美女精品福利| 亚洲影视一区| 户外露出一区二区三区| 韩国97影院| 日韩亚洲视频在线| 久久综合五月天| 欧美午夜无遮挡| 国产高清一区日本| 精品国产美女| 性爱视频在线播放| www日韩视频| 成人xxxxx色| 中文字幕在线看视频国产欧美| 亚洲欧美激情小说另类| 国产日韩一区二区三区在线| 日韩护士脚交太爽了| 精品无人乱码| 亚洲精品无码久久久久久| 97欧洲一区二区精品免费| 中文综合在线观看| 精品成人乱色一区二区| 国产成人av一区二区| 68国产成人综合久久精品| 国产69精品久久久久9999人| 成年人视频网站在线| 午夜视频你懂的| 亚洲五月六月| 成人国产精品久久久|