數(shù)據(jù)科學初學者面臨的5個常見誤區(qū)
數(shù)據(jù)如今已經(jīng)體現(xiàn)出巨大的價值——企業(yè)通過數(shù)據(jù)分析來為包括市場支出、員工決策到產(chǎn)品開發(fā)等所有事情提供參考性建議,而這也意味著,數(shù)據(jù)科學家在工作中的價值正變得越來越突出。
隨著人工智能的發(fā)展,數(shù)據(jù)科學家開始越來越受歡迎。與此同時,數(shù)據(jù)科學家確保自身能夠持續(xù)地提升自我價值,以及通曉如何利用數(shù)據(jù)科學最佳實踐是很重要的。這篇文章中列舉了五個數(shù)據(jù)科學家可能常犯的誤區(qū),并對如何防止這些失誤的出現(xiàn)給出了一定的建議。
誤區(qū)1:專注于電腦,而不是同事
在數(shù)據(jù)科學初學者之中有一個常見的誤解,即在實際工作中他們的工作主要是編寫技術(shù)代碼,而另有他人將向業(yè)務(wù)相關(guān)者展示他們的發(fā)現(xiàn)。但事實遠非如此,數(shù)據(jù)科學家的工作是發(fā)現(xiàn)有助于業(yè)務(wù)增長的信息。
首先,數(shù)據(jù)科學家必須能夠與業(yè)務(wù)人員交流,共同探討他們發(fā)現(xiàn)的信息如何在更大程度上對業(yè)務(wù)產(chǎn)生影響;其次,他們必須知道到哪里尋找這些信息。第二部分是至關(guān)重要的:一個整天坐在辦公桌前的數(shù)據(jù)科學家,可能永遠不會意識到銷售團隊正面臨著客戶流失的問題,或者營銷團隊正在為轉(zhuǎn)化率的事焦頭爛額。
業(yè)務(wù)運營中總會存在各種各樣的問題,數(shù)據(jù)科學家可以幫助解決很多問題。不要只看數(shù)據(jù),離開你的辦公桌去了解公司的日常工作,這樣你就能知道如何提供更大的價值。
誤區(qū)2:忽略業(yè)務(wù)領(lǐng)域的大環(huán)境
除了定期與業(yè)務(wù)部門的同事溝通之外,花時間了解你所在行業(yè)的大環(huán)境也很重要。如果你正在為一家零售公司制定解決方案,花點時間開車去他們的實際地點,觀察他們是如何運作的——銷售人員在做什么、購物空間的設(shè)計、經(jīng)理的工作內(nèi)容,等等。
更全面地理解業(yè)務(wù)環(huán)境,對于提供業(yè)務(wù)洞察和數(shù)據(jù)科學最佳實踐至關(guān)重要。如果你不了解企業(yè)是如何運作的,就不可能幫助它更好地運作。數(shù)據(jù)科學家必須理解數(shù)據(jù)代表什么,否則,您將會遇到這樣的情況:根據(jù)您的模型,一切都應(yīng)該完美地工作——但是仍然存在一些現(xiàn)實問題,您只能通過觀察業(yè)務(wù)的實際情況來了解這些問題。
當您對業(yè)務(wù)的大環(huán)境有了一定的了解之后,就可以找到失效的流程,查看數(shù)據(jù),并推測出了什么問題,在對您的假設(shè)進行測試并確認之后,做出相應(yīng)的改進。
誤區(qū)3:只注重理論而忽視實踐
與許多領(lǐng)域一樣,數(shù)據(jù)科學往往是實踐重于理論。問題是,數(shù)據(jù)科學的實踐是學不到的,你必須在真實的環(huán)境中運行。
在企業(yè)中,數(shù)據(jù)科學家必須經(jīng)受各種壓力,包括:
- 與其他部門和團隊協(xié)調(diào)。有時可能會隨著內(nèi)部優(yōu)先級的變化而從一個項目跳到另一個項目,或者當您的主要解決方案不能按照建議實現(xiàn)時,需要尋找替代解決方案。
- 代碼集成的挑戰(zhàn)。有時,您的代碼不能輕松地與現(xiàn)有代碼集成,這意味著您必須找到對應(yīng)解決方案。
- 預(yù)算限制。在實際工作中,每個項目都有預(yù)算限制。弄清楚如何在有限的預(yù)算下,獲得足夠好的(而不是完美的)解決方案,這是數(shù)據(jù)科學家有效工作的關(guān)鍵部分。
雖然關(guān)注最新的文章、博客和前沿技術(shù)也很重要,但在這份工作中,有些部分你只能邊做邊學。一個具備高工作效率的數(shù)據(jù)科學家,應(yīng)知道如何平衡他們的專業(yè)發(fā)展。
誤區(qū)4:從不問為什么
要成為更好的數(shù)據(jù)科學家,只需問一問為什么。這個問題有助于消除數(shù)據(jù)科學家和公司其他部門同事之間的溝通障礙。
想象一下,一家零售公司的營銷主管要求建立一個數(shù)據(jù)模型,該模型能夠顯示有多少消費者產(chǎn)生購買行為的原因是與他們訪問網(wǎng)站的渠道相關(guān)的。在創(chuàng)建模型之前,你可以先問問為什么。是為了了解哪些客戶是最有價值的,這樣他們就能知道從哪里可以獲得更高的轉(zhuǎn)化率?是為了幫助銷售團隊優(yōu)先考慮渠道嗎?他們有辦法衡量新老客戶嗎?他們會將產(chǎn)品收益作為考慮因素嗎?
為了建立一個真正有用的模型,你必須理解你的同事希望用它去解決的問題——當你這樣做的時候,你可能比你最初預(yù)想的更容易解決它,這對每個人都有好處。
誤區(qū)5、假設(shè)您的數(shù)據(jù)是干凈的
在許多情況下,數(shù)據(jù)科學家80%的工作是清理數(shù)據(jù)——最后20%的工作是運行機器學習或深度學習模型,以獲取數(shù)據(jù)洞察。
接收數(shù)據(jù)集時要做的第一步是辨認有多少數(shù)據(jù)是直接可用的,第二步是確定如何讓獲得一個完全可用的數(shù)據(jù)集。
數(shù)據(jù)從來都不是完美的——如果是的話,數(shù)據(jù)科學家就不會有工作了。我們必須使不完美的數(shù)據(jù)變得可用,這要求我們理解業(yè)務(wù)的大環(huán)境——您不需要哪些信息?哪些是關(guān)鍵任務(wù)?
人們很容易陷入一種現(xiàn)代思維模式,即數(shù)據(jù)是企業(yè)中所有意義和價值的來源(尤其是如果你是一名數(shù)據(jù)科學家)。但如果我們想要繼續(xù)為我們工作的公司帶來價值、發(fā)揮數(shù)據(jù)科學的最佳實踐效果,我們必須承認只有當我們的工作是整個商業(yè)生態(tài)系統(tǒng)中的一部分時,我們的工作才最有價值——這取決于數(shù)據(jù)科學家本身與生態(tài)的協(xié)作。



























