国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

作為數(shù)據(jù)科學(xué)家,你會(huì)怎樣應(yīng)對(duì)這五大挑戰(zhàn)?

大數(shù)據(jù) 數(shù)據(jù)分析
作為數(shù)據(jù)科學(xué)家,我在很多公司工作過(guò),也遇到了很多問(wèn)題和挑戰(zhàn)。事實(shí)上,很多人都會(huì)經(jīng)歷這些挑戰(zhàn),就不同情況而言,也會(huì)有多種可行的解決方案。我將談?wù)勎以媾R的一些最常見(jiàn)或最困難的挑戰(zhàn)。

 本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

作為數(shù)據(jù)科學(xué)家,我在很多公司工作過(guò),也遇到了很多問(wèn)題和挑戰(zhàn)。事實(shí)上,很多人都會(huì)經(jīng)歷這些挑戰(zhàn),就不同情況而言,也會(huì)有多種可行的解決方案。我將談?wù)勎以媾R的一些最常見(jiàn)或最困難的挑戰(zhàn)。

[[377837]]

業(yè)務(wù)問(wèn)題描述不當(dāng)

只要有一個(gè)工作人員出錯(cuò),你就會(huì)面臨這個(gè)挑戰(zhàn)。數(shù)據(jù)科學(xué)專家的主要工作之一就是做業(yè)務(wù)問(wèn)題描述——這也就是起初使用數(shù)據(jù)科學(xué)的原因。

實(shí)際上,多數(shù)情況下描述不是某個(gè)數(shù)據(jù)科學(xué)專家自己,而是整個(gè)團(tuán)隊(duì)。團(tuán)隊(duì)里通常包括利益相關(guān)者,比如產(chǎn)品經(jīng)理。但是,團(tuán)隊(duì)內(nèi)可能出現(xiàn)技術(shù)脫節(jié),任一方都可能對(duì)業(yè)務(wù)問(wèn)題描述不當(dāng)。

產(chǎn)品經(jīng)理可能會(huì)說(shuō):“我們要提更多建議,大家才能買的更多”,而數(shù)據(jù)科學(xué)專家可能會(huì)說(shuō):“向大家推薦產(chǎn)品的時(shí)候,超過(guò)80%的情況下我們要有95%的把握。”

這兩種問(wèn)題描述總體來(lái)講都很好,但都不夠細(xì)化,或者只是勾勒出了問(wèn)題的輪廓。問(wèn)題描述是要從中找出解決方案,但是本身并不是解決方案。

以下是一個(gè)更好的業(yè)務(wù)問(wèn)題描述問(wèn)題的例子:“顧客平均每個(gè)訂單只買一件東西”。

就是這么簡(jiǎn)單。一開(kāi)始雙方都想方設(shè)法將描述復(fù)雜化,但現(xiàn)在這樣更高效。雖然沒(méi)有解決方案,但人人都能看懂這種直接、通俗易懂的描述。

示例描述說(shuō)明一件東西不夠,那么解決方案可能就是如何讓顧客更可能買一件以上的東西。一種數(shù)據(jù)科學(xué)解決方案就是使用機(jī)器學(xué)習(xí)推薦系統(tǒng)。在工作中不要好高騖遠(yuǎn),而要專注于眼下的實(shí)際問(wèn)題,這很重要。

數(shù)據(jù)失衡

任何真正與數(shù)據(jù)打交道的人大多都會(huì)遇到數(shù)據(jù)失衡的問(wèn)題。比如,遇到分類問(wèn)題時(shí)使用邏輯回歸給新數(shù)據(jù)賦值0或1。目標(biāo)變量預(yù)計(jì)0和1各占50%的可能。然而,結(jié)果完全出乎預(yù)料。

如果試著將一種新動(dòng)物歸類為狗或者貓,就需要貓狗各1000列的訓(xùn)練數(shù)據(jù)。這樣,模型才足夠辨別二者的不同之處。如果訓(xùn)練數(shù)據(jù)中貓有1900只,狗只有100只,那么就可能產(chǎn)生誤解,認(rèn)為多數(shù)新動(dòng)物都是貓,這是個(gè)很常見(jiàn)的問(wèn)題。

可能的解決方案是使用其他補(bǔ)強(qiáng)少數(shù)部分的機(jī)器學(xué)習(xí)算法,或者創(chuàng)建新的綜合數(shù)據(jù)。有一種技術(shù)叫不均衡學(xué)習(xí)(imbalanced-learn),可以采用下列具體方法進(jìn)行過(guò)采樣:

  • ADASYN算法(Adaptive Synthetic,自適應(yīng)綜合過(guò)采樣)
  • BorderlineSMOTE算法
  • KMeansSMOTE算法
  • RandomOverSampler算法
  • SMOTNC算法
  • SVMSMOTE算法(Nominal andContinuous)

這些過(guò)采樣方法都非常有效,而且能解決數(shù)據(jù)不均衡問(wèn)題。還有很多方法,比如欠采樣、二者相結(jié)合、組合法、Keras和TensorFlow的批量生成器。下面是過(guò)采樣操作的示例:

  • 畫一幅二維視圖
  • 繪制已知數(shù)據(jù)點(diǎn)
  • 選擇一個(gè)已知點(diǎn)
  • 找出最鄰近點(diǎn)
  • 在鄰近點(diǎn)與原始數(shù)據(jù)點(diǎn)之間畫一條線
  • 然后隨機(jī)將大頭針丟在這些線上
  • 這就是新合成的過(guò)采樣數(shù)據(jù)

像RandomForest之類的一些機(jī)器算法函數(shù)庫(kù)的參數(shù)要指定均衡數(shù)據(jù)也很簡(jiǎn)單。

過(guò)擬合

 

構(gòu)建的數(shù)據(jù)科學(xué)模型將訓(xùn)練數(shù)據(jù)解析的太透徹就會(huì)出現(xiàn)過(guò)擬合問(wèn)題。模型接收了訓(xùn)練數(shù)據(jù)中的詳細(xì)信息,也包括數(shù)據(jù)中的噪音,所以過(guò)于具體,而這在預(yù)測(cè)新的真實(shí)數(shù)據(jù)時(shí)是無(wú)用的,結(jié)果模型就無(wú)法做出正確推斷和歸納。模型的目的是處理好未見(jiàn)過(guò)的數(shù)據(jù),所以要想辦法找到能處理好新數(shù)據(jù)的解決辦法并付諸使用。

  • 交叉驗(yàn)證
  • 移除重復(fù)或相似特點(diǎn)
  • 及早停止
  • 正則化
  • 集成法
  • 非參數(shù)機(jī)器學(xué)習(xí)算法
  • 使用更多數(shù)據(jù)訓(xùn)練

特征不足

制定業(yè)務(wù)問(wèn)題描述之后,通常還需要開(kāi)始尋找數(shù)據(jù),然后形成自己的特點(diǎn),輸入到數(shù)據(jù)科學(xué)模型中作為訓(xùn)練數(shù)據(jù)。對(duì)公司數(shù)據(jù)表了解的越多,就會(huì)發(fā)現(xiàn)還可以以其它縱列為新特征。不過(guò),一開(kāi)始特征有限的問(wèn)題還有另一種解決辦法。

構(gòu)建當(dāng)前度量的統(tǒng)計(jì)數(shù)據(jù)。例如,一般具有“每位用戶點(diǎn)擊量”特征,就會(huì)停止。但也可以從如下某一縱列中創(chuàng)建新的度量:

  • 每位用戶的平均點(diǎn)擊量
  • 每位用戶的眾數(shù)點(diǎn)擊量
  • 每位用戶75%百分位數(shù)點(diǎn)擊量

還有很多不同方式來(lái)描述該特征的范圍。

版本控制

數(shù)據(jù)科學(xué)家非常習(xí)慣獨(dú)自工作,喜歡對(duì)同一個(gè)重點(diǎn)項(xiàng)目創(chuàng)建20個(gè)不同版本的Jupyter Notebook。我們約定好了命名,但第二天就忘記了。然后,一切變得一團(tuán)糟。但其實(shí)還有更好的方式——那就是Git和GitHub。

  • Git
  • GitHub
  • 如果數(shù)量較少的話,還有其它自制辦法,比如用特殊數(shù)字方法(例:Notebook1,Notebook2)創(chuàng)建新版本。

這些工具可以通過(guò)創(chuàng)建區(qū)別于主干/代碼庫(kù)的獨(dú)立分支,幫你形成自己的代碼變化。然后就可以創(chuàng)建一個(gè)拉取請(qǐng)求來(lái)比較代碼變化,在獲得他人認(rèn)可后并入原件。如此一來(lái),你就不僅是在創(chuàng)建代碼評(píng)審,而且還允許大家注意到并更加了解你的特定代碼。

如你所見(jiàn),數(shù)據(jù)科學(xué)家會(huì)面臨很多挑戰(zhàn),我所談到的只是冰山一角。但這些問(wèn)題是我經(jīng)歷最多的,我認(rèn)為應(yīng)該重點(diǎn)討論的。希望我的方法能幫你順利解決這些問(wèn)題。

責(zé)任編輯:華軒 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2019-01-08 16:25:42

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2020-12-16 19:25:50

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2025-07-21 05:55:00

2018-01-31 22:30:05

數(shù)據(jù)科學(xué)家數(shù)據(jù)專家工程師

2019-01-28 18:43:02

數(shù)據(jù)科學(xué)家Python技巧

2019-01-29 10:53:07

數(shù)據(jù)開(kāi)發(fā)Python

2018-08-20 19:24:40

數(shù)據(jù)科學(xué)數(shù)據(jù)清理數(shù)據(jù)分析

2023-03-30 14:14:45

Kubernetes

2018-08-10 08:35:49

2018-02-07 15:45:37

數(shù)據(jù)科學(xué)家數(shù)據(jù)技術(shù)

2022-06-23 12:33:35

大數(shù)據(jù)數(shù)據(jù)分析

2016-09-22 16:30:17

ITPythonSQL queries

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2019-07-03 16:10:27

數(shù)據(jù)科學(xué)家數(shù)據(jù)庫(kù)數(shù)據(jù)工程師

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO

2018-11-29 13:30:15

數(shù)據(jù)科學(xué)家項(xiàng)目數(shù)據(jù)

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2019-06-05 15:17:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲剧情一区二区| 最好看的2019的中文字幕视频| 99热久久这里只有精品| 久久尤物视频| 91精品视频一区| 亚洲制服欧美另类| 91国产高清在线| 豆花视频一区二区| 最新中文字幕亚洲| 欧美黄色网页| 国产丝袜一区二区三区免费视频| 在线网址91| 日韩欧美三级在线| 制服丝袜中文字幕在线| 欧美一区二区在线不卡| 麻豆视频在线免费观看| 欧美美女一区二区在线观看| 超碰在线国产| 欧美日韩一区不卡| 在线观看h片| 欧美中文字幕一二三区视频| 一区二区三区高清在线视频| 欧美日韩另类字幕中文| 亚洲成人精品一区二区三区| 欧美性xxxx极品高清hd直播| 韩国福利在线| 91精品国产综合久久久久久| 青青青草视频在线| 日韩高清av一区二区三区| 亚洲最大网站| 久久精品国产99国产精品澳门 | 久久久久久高潮国产精品视| 日韩精品一区二区三区中文| 97国产在线视频| 欧美mv日韩| 另类小说综合网| 搞黄网站在线看| 亚洲欧美在线磁力| 亚洲乱码一区| 91网站免费看| 久久免费黄色| 国精产品一区一区三区视频| 中文字幕一区二区三| 青青草视频在线观看| 欧美一区午夜视频在线观看 | 麻豆精品av| 91日本在线观看| 亚洲在线网站| 成 年 人 黄 色 大 片大 全| 亚洲免费观看高清完整| a√资源在线| 最近2019中文免费高清视频观看www99| 国产suv精品一区| av免费观看久久| 美洲天堂一区二卡三卡四卡视频 | 国产综合视频一区二区三区免费| 欧美大胆一级视频| crdy在线观看欧美| 亚洲自拍偷拍福利| 国产成人自拍网| 久久久久久五月天久久久久久久久| 欧美美女网站色| 国产日本久久| 91网站免费观看| 国产福利一区二区三区| 中文字幕av网| 亚洲欧洲视频在线| 国产亚洲一区| 亚洲一区三区| 一区二区视频免费在线观看| 国产在线拍揄自揄拍视频 | jizzjizz中国精品麻豆| 韩国视频理论视频久久| 国产日韩亚洲| 国产精品自拍视频在线| 日韩免费视频一区二区| 欧美综合自拍| 一区二区日本伦理| 亚洲伊人色欲综合网| 在线天堂中文资源最新版| 日本久久91av| 国产一区二区在线影院| 国内福利写真片视频在线| 亚洲另类xxxx| 91久久久久| 成人在色线视频在线观看免费大全| 欧美一区二区三区婷婷月色| 蜜桃成人av| 欧美丰满熟妇bbbbbb百度| 91精品国产综合久久久久久| 亚洲综合小说图片| 欧美一级免费播放| 欧美日韩激情一区二区三区| 亚洲+变态+欧美+另类+精品| 9l视频自拍9l视频自拍| 福利精品视频在线| 91精品入口| 国产又粗又大又爽的视频| 欧美午夜精品理论片a级按摩| 北条麻妃一区二区三区在线| 激情视频小说图片| 337p亚洲精品色噜噜噜| 久久精品av| 男人插曲女人视频免费| www亚洲精品| 激情综合色播五月| 色呦呦在线视频| 99在线看视频| 精品福利一区二区| 精品国产网站| 日本xxxx高清色视频| 国内精品久久久久影院优 | 欧美日韩一区二区三区高清| 亚洲天堂日韩在线| 亚洲国产精品久久久久爰色欲| 精品国产乱码久久久久久影片| 欧美精品偷拍| 色影视在线视频资源站| 97视频在线观看免费高清完整版在线观看 | 毛片av一区二区三区| 在线免费观看黄色| 亚洲最大成人网色| 懂色aⅴ精品一区二区三区蜜月| 在线日韩网站| 激情视频亚洲| 日韩av片永久免费网站| 福利一区二区在线| 日本性爱视频在线观看| 成人午夜电影免费在线观看| 亚洲精品v日韩精品| 97视频一区| 日本熟妇人妻中出| 美女福利精品视频| 99久久99久久精品免费观看| 成人免费福利| 亚洲 自拍 另类小说综合图区| 亚洲美女av在线播放| 自拍自偷一区二区三区| 欧美午夜免费| 日韩亚洲欧美在线| 国产日韩一区二区三区在线播放| 色鬼7777久久| 91精品啪aⅴ在线观看国产| 亚洲男同性视频| 卡通动漫精品一区二区三区| 韩国一区二区av| 欧美美女18p| 欧美韩国日本综合| 天美av一区二区三区久久| 成人午夜影院| 成人免费大片黄在线播放| 91久久精品一区二区三| 亚洲美女啪啪| 成人黄色动漫| 久久久亚洲精品无码| 久久噜噜噜精品国产亚洲综合| 国产欧美日韩亚州综合 | 国产女同互慰高潮91漫画| 盗摄系列偷拍视频精品tp| 美女张开让男人捅| 国产一区二区色| 色综合网站在线| 午夜亚洲精品| 国产综合av| 69国产精品| 精品一区日韩成人| 自拍视频国产精品| 一区二区久久久久久| 国产日韩1区| 国产日本亚洲| 青青色在线视频| 91免费版看片| 久久久久久伊人| 在线视频中文字幕一区二区| 免费成人av在线| 成人自拍在线| 秋霞影院午夜丰满少妇在线视频| 在线一区亚洲| 日本电影亚洲天堂| 日韩精品综合一本久道在线视频| 91蜜桃视频在线| 欧美激情第10页| 国产香蕉久久| 国产在线你懂得| 日本免费黄视频| 国产精品区一区二区三在线播放 | www.九色在线| 日本免费一二区| 超碰免费在线公开| 国产精品久久久久久av福利软件| 亚洲成人999| 黄色一区二区在线观看| 成人一区二区视频| 欧美不卡一区| 97超碰成人| 最新欧美色图| 免费黄网站在线| 久草在线新资源| 成人免费观看毛片| 日韩视频专区|