贏在起跑線,數(shù)據(jù)科學(xué)必備5大技能
數(shù)據(jù)科學(xué)領(lǐng)域競(jìng)爭(zhēng)激烈,人們正在迅速發(fā)展越來越多的技能和經(jīng)驗(yàn)。
“R、Python、SQL和機(jī)器學(xué)習(xí)”一直是數(shù)據(jù)科學(xué)家的標(biāo)配。但隨著這個(gè)領(lǐng)域的發(fā)展,這些技能已經(jīng)漸漸不足以在就業(yè)市場(chǎng)上保持競(jìng)爭(zhēng)力了。
2020年,為了不被時(shí)代淘汰,數(shù)據(jù)科學(xué)家也需要發(fā)展開發(fā)人員的技術(shù)。
下面小芯就為大家整理了,2020數(shù)據(jù)科學(xué)必備的5大技能,請(qǐng)收好~
1. CloudandBigData
機(jī)器學(xué)習(xí)產(chǎn)業(yè)化對(duì)數(shù)據(jù)科學(xué)家的約束越來越嚴(yán)重,同時(shí)也成為數(shù)據(jù)工程師乃至整個(gè)IT行業(yè)的嚴(yán)重約束。
在數(shù)據(jù)科學(xué)家可以致力于減少模型所需時(shí)間的情況下,IT人員可以通過更快的計(jì)算服務(wù)來做出貢獻(xiàn),如:
- Cloud:將計(jì)算資源轉(zhuǎn)移到外部供應(yīng)商(如AWS、MicrosoftAzure或GoogleCloud),可以很容易地建立一個(gè)可以從遠(yuǎn)程訪問的非常快速的機(jī)器學(xué)習(xí)環(huán)境。這就要求數(shù)據(jù)科學(xué)家對(duì)云功能有一個(gè)基本的了解,例如使用遠(yuǎn)程服務(wù)器而不是自己的計(jì)算機(jī),或者使用Linux而不是Windows/Mac。

PySpark正在為parallel(BigData)系統(tǒng)編寫Python
- BigData:快速學(xué)習(xí)IT的第二個(gè)方面是使用Hadoop和Spark,這兩種工具允許同時(shí)在許多計(jì)算機(jī)上并行處理任務(wù)(工作節(jié)點(diǎn))。這要求數(shù)據(jù)科學(xué)家使用不同的方法來開發(fā)模型,因?yàn)榇a必須允許并行執(zhí)行。
2. NLP, NeuralNetworksandDeepLearning
最近,一位數(shù)據(jù)科學(xué)家仍堅(jiān)持,NLP和圖像識(shí)別僅僅是數(shù)據(jù)科學(xué)的專業(yè),并非所有人都必須掌握。

你需要理解深度學(xué)習(xí):基于人腦思想的機(jī)器學(xué)習(xí)
但是,圖像分類和NLP的用例越來越頻繁,甚至在“常規(guī)”業(yè)務(wù)中也是如此。如今,對(duì)這種模式有一個(gè)基本的了解已經(jīng)成為行業(yè)最低標(biāo)準(zhǔn)。
就算你的工作中沒有此類模型的直接應(yīng)用程序,實(shí)際操作的項(xiàng)目也很容易找到,并且可以讓你理解圖像和文本項(xiàng)目中所需的步驟。
3. Agile
Agile是一種組織工作的方法,已得到開發(fā)團(tuán)隊(duì)大量使用。越來越多的人涉足數(shù)據(jù)科學(xué)領(lǐng)域,他們最初的技能是純軟件開發(fā),機(jī)器學(xué)習(xí)工程師的角色也應(yīng)運(yùn)而生。
Post-its和Agile似乎是并駕齊驅(qū)的
越來越多的數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師被視為開發(fā)人員:不斷改進(jìn)現(xiàn)有的代碼庫(kù)中的機(jī)器學(xué)習(xí)元素。
對(duì)于這類角色,數(shù)據(jù)科學(xué)家必須了解基于Scrum方法的Agile工作方式。它為不同的人定義了不同的角色,這種角色定義保證了持續(xù)改進(jìn)和順利實(shí)施。
4. Industrialization
在數(shù)據(jù)科學(xué)領(lǐng)域,我們思考項(xiàng)目的方式也在發(fā)生變化。數(shù)據(jù)科學(xué)家一如既往地用機(jī)器學(xué)習(xí)來回答商業(yè)問題。然而,越來越多數(shù)據(jù)科學(xué)項(xiàng)目為生產(chǎn)系統(tǒng)開發(fā),例如,大型軟件中的微服務(wù)。

AWS是比較大的云供應(yīng)商
與此同時(shí),高級(jí)模型的CPU和RAM消耗也越來越大,尤其是在使用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)時(shí)。
就數(shù)據(jù)科學(xué)家的工作要求而言,不僅要考慮模型的準(zhǔn)確性,還要考慮項(xiàng)目的執(zhí)行時(shí)間或其他工業(yè)化方面,這一點(diǎn)變得越來越重要。

和微軟一樣,谷歌也有云服務(wù)
5. Github
Git和Github是面向開發(fā)人員的軟件,能夠管理不同版本的軟件。它們跟蹤對(duì)代碼庫(kù)所做的所有更改,此外,當(dāng)多個(gè)開發(fā)人員同時(shí)對(duì)同一個(gè)項(xiàng)目進(jìn)行更改時(shí),此類軟件能夠真正增加協(xié)作便利性。

GitHub是個(gè)不錯(cuò)的選擇
隨著數(shù)據(jù)科學(xué)家的角色變得越來越重要,能夠處理這些開發(fā)工具就成了關(guān)鍵。Git正成為一項(xiàng)嚴(yán)肅的工作要求,要適應(yīng)最好的使用Git,是需要時(shí)間的。當(dāng)你一個(gè)人或者和新同事一起,研究Git很容易,但是當(dāng)你作為一個(gè)新人加入一個(gè)Git專家團(tuán)隊(duì),你可能會(huì)比想象的還要更難適應(yīng)。

Git是GitHub真正所需的技能
為了保持競(jìng)爭(zhēng)力,一定要為運(yùn)用新工具及接受新工作方式而做好準(zhǔn)備,加油!






















