国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

數(shù)據(jù)的游戲:冰與火

云計算
還要提的一個是“數(shù)據(jù)中的個人隱私問題”,這似乎就像那些有悖倫理的黑魔法一樣,你要成功就得把自己變得黑暗。是的,數(shù)據(jù)就像一個王座一樣,像征著一種權(quán)力和征服,但登上去的路途一樣令人膽顫。

我對數(shù)據(jù)挖掘和機器學習是新手,從去年7月份在Amazon才開始接觸,而且還是因為工作需要被動接觸的,以前都沒有接觸過,做的是需求預測機器學習相關(guān)的。后來,到了淘寶后,自己憑興趣主動地做了幾個月的和用戶地址相關(guān)數(shù)據(jù)挖掘上的工作,有一些淺薄的心得。下面這篇文章主要是我做為一個新人僅從事數(shù)據(jù)方面技術(shù)不到10個月的一些心得,也許對你有用,也許很傻,不管怎么樣,歡迎指教和討論。

另外,注明一下,這篇文章的標題模仿了一個美劇《權(quán)力的游戲:冰與火之歌》。在數(shù)據(jù)的世界里,我們看到了很多很牛,很強大也很有趣的案例。但是,數(shù)據(jù)就像一個王座一樣,像征著一種權(quán)力和征服,但登上去的路途一樣令人膽顫。

[[81950]]

數(shù)據(jù)挖掘中的三種角色

在Amazon里從事機器學習的工作時,我注意到了Amazon玩數(shù)據(jù)的三種角色。

Data Analyzer:數(shù)據(jù)分析員。這類人的人主要是分析數(shù)據(jù)的,從數(shù)據(jù)中找到一些規(guī)則,并且為了數(shù)據(jù)模型的找不同場景的Training Data。另外,這些人也是把一些臟數(shù)據(jù)洗干凈的的人。

Research Scientist:研究科學家。這種角色主要是根據(jù)不同的需求來建立數(shù)據(jù)模型的。他們把自己戲稱為不近人間煙火的奇異性物種,就像《生活大爆炸》里的 那個Sheldon一樣。這些人基本上玩的是數(shù)據(jù)上的科學

Software Developer :軟件開發(fā)工程師。主要是把 Scientist 建立的數(shù)據(jù)模型給實現(xiàn)出來,交給Data Analyzer去玩。這些人通常更懂的各種機器學習的算法。

我相信其它公司的做數(shù)據(jù)挖掘或是機器學習的也就這三種工作,或者說這三種人,對于我來說,

最有技術(shù)含量的是 Scientist,因為數(shù)據(jù)建模和抽取最有意義的向量,以及選取不同的方法都是這類人來決定的。這類人,我覺得在國內(nèi)是找不到的。

最苦逼,也最累,但也最重要的是Data Analyzer,他們的活也是這三個角色中最最最重要的(注意:我用了三個最)。因為,無論你的模型你的算法再怎么牛,在一堆爛數(shù)據(jù)上也只能干出一堆垃圾的活來。正所謂:Garbage In, Garbage Out !但是這個活是最臟最累的活,也是讓人最容易退縮的活。

最沒技術(shù)含量的是Software Developer。現(xiàn)在國內(nèi)很多玩數(shù)據(jù)的都以為算法最重要,并且,很多技術(shù)人員都在研究機器學習的算法。錯了,最重要的是上面兩個人,一個是苦逼地洗數(shù)據(jù)的Data Analyzer,另一個是真正懂得數(shù)據(jù)建模的Scientist!而像什么K-Means,K Nearest Neighbor,或是別的什么貝葉斯、回歸、決策樹、隨機森林等這些玩法,都很成熟了,而且又不是人工智能,說白了,這些算法在機器學習和數(shù)據(jù)挖掘中,就像Quick Sort之類的算法在軟件設(shè)計中基本沒什么技術(shù)含量。#p# 

數(shù)據(jù)的質(zhì)量

目前所流行的Buzz Word——大數(shù)據(jù)是相當誤導人的。在我眼中,數(shù)據(jù)不分大小,只分好壞。

在處理數(shù)據(jù)的過程中,我第一個感受最大的就是數(shù)據(jù)質(zhì)量。下面我分幾個案例來說明:

案例一:數(shù)據(jù)的標準

在Amazon里,所有的商品都有一個唯一的ID,叫ASIN——Amazon Single Identify Number,這個ID是用來標識商品的唯一性的(來自于條形碼)。也就是說,無論是你把商品描述成什么樣,只要ASIN一樣,這就是完完全全一模一樣的商品。

這樣,就不像淘寶一樣,當你搜索一個iPhone,你會出現(xiàn)一堆各種各樣的iPhone,有的叫“超值iPhone”,有的叫“蘋果iPhone”,有的叫“智能手機iPhone”,有的叫“iPhone 白色/黑色”……,這些同一個商品不同的描述是商家為了吸引用戶。但是帶來的問題有兩點:

1)用戶體驗不好。以商品為中心的業(yè)務(wù)模型,對于消費者來說,體驗明顯好于以商家為中心的業(yè)務(wù)模型。

2)只要你不能正確讀懂(識別)數(shù)據(jù),你后面的什么算法,什么模型統(tǒng)統(tǒng)沒用。

所以,只要你玩數(shù)據(jù),你就會發(fā)現(xiàn),如果數(shù)據(jù)的標準沒有建立起來,干什么都沒用。數(shù)據(jù)標準是數(shù)據(jù)質(zhì)量的第一道關(guān)卡,沒這個玩意,你就什么也別玩了。所謂數(shù)據(jù)的標準,為數(shù)據(jù)做唯一標識只是其中最最基礎(chǔ)的一步,數(shù)據(jù)的標準還單單只是這個,更重要的是把數(shù)據(jù)的標準抽象成數(shù)學向量,沒有數(shù)學向量,后面也無法挖掘。

所以,你會看到,洗數(shù)據(jù)的大量的工作就是在把雜亂無章的數(shù)據(jù)歸并聚合,這就是在建立數(shù)據(jù)標準。這里面絕對少不了人肉的工作。無非就是:

聰明的人在數(shù)據(jù)產(chǎn)生之前就定義好標準,并在數(shù)據(jù)產(chǎn)生之時就在干數(shù)據(jù)清洗的工作。

一般的人是在數(shù)據(jù)產(chǎn)生并大量堆積之后,才來干這個事。

另外,說一下Amazon的ASIN,這個事從十多年前就開始了,我在Amazon的內(nèi)網(wǎng)里看到的資料并沒有說為什么搞了個這樣一個ID,我倒覺得這并不是因為Amazon因為玩數(shù)據(jù)發(fā)現(xiàn)必需建議個商品ID,也許因為Amazon的業(yè)務(wù)模型就是設(shè)計成以“商品為中心”的。今天,這個ASIN依然有很多很多的問題,ASIN一樣不能完全保證商品就是一樣的,ASIN不一樣也不代表商品不一樣,不過90%以上的商品是保證的。Amazon有專門的團隊Category Team,里面有很多業(yè)務(wù)人員天天都在拼命地在對ASIN的數(shù)據(jù)進行更正。

案例二:數(shù)據(jù)的準確

用戶地址是我從事過數(shù)據(jù)分析的另一個事情。我還記得當時看到那數(shù)以億計的用戶地址的數(shù)據(jù)的那種興奮。但是隨后我就興奮不起來了。因為地址是用戶自己填寫的,這里面有很多的坑,都不是很容易做的。

第一個是假/錯地址,因為有的商家作弊或是用戶做測試。所以地址是錯的,

比如,直接就輸入“該地址不存在”,“13243234asdfasdi”之類的。這類的地址是可以被我的程序識別出來的。

還有很能被我的程序所識別出來的。比如:“宇宙路地球小區(qū)”之類的。但這類地址可以被人識別出來。

還有連人都識別不出來的,比如:“北京市東四環(huán)中路23號南航大廈5樓540室”,這個地址根本不存在。

第二個是真地址,但是因為用戶寫的不標準,所以很難處理,比如:

縮寫:“建國門外大街” 和 “建外大街”,“中國工商銀行”和“工行”……

錯別字:“潮陽門”,“通慧河”……

顛倒:“東四環(huán)中路朝陽公園” 和 “朝陽公園 (靠東四環(huán))” ……

別名:有的人寫的是開發(fā)商的小區(qū)名“東恒國際”,有的則是寫行政的地名“八里莊東里”……

這樣的例子多得不能再多了。可見數(shù)據(jù)如果不準確,會增加你處理的難度。有個比喻非常好,玩數(shù)據(jù)的就像是在挖金礦一樣,如果含金量高,那么,挖掘的難度就小,也就容易出效果,如果含金量低,那么挖掘的難度就大,效果就差。

上面,我給了兩個案例,旨在說明——

1)數(shù)據(jù)沒有大小之分,只有含金量大的數(shù)據(jù)和垃圾量大的數(shù)據(jù)之分。

2)數(shù)據(jù)清洗是一件多么重要的工作,這也是一件人肉工作量很大的工作。

所以,這個工作最好是在數(shù)據(jù)產(chǎn)生的時候就一點一滴的完成。

有一個觀點:如果數(shù)據(jù)準確度在60%的時候,你干出來的事,一定會被用戶罵!如果數(shù)據(jù)準確度在80%左右,那么用戶會說,還不錯!只有數(shù)據(jù)準確度到了90%的時候,用戶才會覺得真牛B。但是從數(shù)據(jù)準確度從80%到90%要付出的成本要比60% 到 80%的付出大得多得多。大多數(shù)據(jù)的數(shù)據(jù)挖掘團隊都會止步于70%這個地方。因為,再往后,這就是一件相當累的活。#p# 

數(shù)據(jù)的業(yè)務(wù)場景

我不知道有多少數(shù)據(jù)挖掘團隊真正意識到了業(yè)務(wù)場景和數(shù)據(jù)挖掘的重要關(guān)系?我們需要知道,根本不可能做出能夠滿足所有業(yè)務(wù)的數(shù)據(jù)挖掘和分析模型。

推薦音樂視頻,和電子商務(wù)中的推薦商品的場景完全不一樣。電商中,只要你買了一個東西沒有退貨,那么,有很大的概率我可以相信你是喜歡這個東西的,然后,對于音樂和視頻,你完全不能通過用戶聽了這首歌或是看了這個視頻就武斷地覺得用戶是喜歡這首歌和這個視頻的,所以,我們可以看到,推薦算法在不同的業(yè)務(wù)場景下的實現(xiàn)難度也完全不一樣。

說到推薦算法,你是不是和我一樣,有時候會對推薦有一種感覺——推薦就是一種按不同維度的排序的算法。我個人以為,就提一下推薦這個東西在某些業(yè)務(wù)場景下是比較Tricky的,比如,推薦有兩種(不是按用戶關(guān)系和按物品關(guān)系這兩種),

一種是共性化推薦,結(jié)果就是推薦了流行的東西,這也許是好 的,但這也許會是用戶已知的東西,比如,到了北京,我想找個飯館,你總是給我推薦烤鴨,我想去個地方,你總是給我推薦天安門故宮天壇(因為大多數(shù)人來北京就是吃烤鴨,就是去天安門的),這些我不都知道了嘛,還要你來推薦?另外,共性化的東西通常是可以被水軍刷的。

另一種是一種是個性化推薦,這個需要分析用戶的個體喜好,好的就是總是給我我喜歡的,不好的就是也許我的口味會隨我的年齡和環(huán)境所改變,而且,總是推薦符合用戶口味的,不能幫用戶發(fā)掘新鮮點。比如,我喜歡吃辣的,你總是給我推薦川菜和湘菜,時間長了我也會覺得煩的。

推薦有時并不是民主投票,而是專業(yè)用戶或資深玩家的建議;推薦有時并不是推薦流行的,而是推薦新鮮而我不知道的。你可以看到,不同的業(yè)務(wù)場景,不同的產(chǎn)品形態(tài)下的玩法可能完全不一樣,

另外,就算是對于同一個電子商務(wù)來說,書、手機 和服裝的業(yè)務(wù)形態(tài)完全不一樣。我之前在Amazon做Demand Forecasting(用戶需求預測)——通過歷史數(shù)據(jù)來預測用戶未來的需求。

對于書、手機、家電這些東西,在Amazon里叫Hard Line的產(chǎn)品,你可以認為是“標品”(但也不一定),預測是比較準的,甚至可以預測到相關(guān)的產(chǎn)品屬性的需求。

但是地于服裝這樣的叫Soft Line的產(chǎn)品,Amazon干了十多年都沒有辦法預測得很好,因為這類東西受到的干擾因素太多了,比如:用戶的對顏色款式的喜好,穿上去合不合身,愛人朋友喜不喜歡…… 這類的東西太容易變了,買得人多了反而會賣不好,所以根本沒法預測好,更別Stock/Vender Manager 提出來的“預測某品牌的某種顏色的衣服或鞋子”。

對于需求的預測,我發(fā)現(xiàn),長期在這個行業(yè)中打拼的人的預測是最準的,什么機器學習都是浮云。機器學習只有在你要面對的是成千上萬種不同商品和品類的時候才會有意義。

數(shù)據(jù)挖掘不是人工智能,而且差得還太遠。不要覺得數(shù)據(jù)挖掘什么事都能干,找到一個合適的業(yè)務(wù)場景和產(chǎn)品形態(tài),比什么都重要。#p# 

數(shù)據(jù)的分析結(jié)果

我看到很多的玩大數(shù)據(jù)的,基本上干的是數(shù)據(jù)統(tǒng)計的事,從多個不同的維度來統(tǒng)計數(shù)據(jù)的表現(xiàn)。最簡單最常見的統(tǒng)計就是像網(wǎng)站統(tǒng)計這樣的事。比如:PV是多少,UV是多少,來路是哪里,瀏覽器、操作系統(tǒng)、地理、搜索引擎的分布,等等,等等。

嘮叨一句,千萬不要以為,你一天有十幾個T的日志就是數(shù)據(jù)了,也不要以為你會用Hadoop/MapReduce分析一下日志,這就是數(shù)據(jù)挖掘了,說得難聽一點,你在做的只不過是一個統(tǒng)計的工作。那幾個T的Raw Data,基本上來說沒什么意義,只能叫日志,連數(shù)據(jù)都算不上,只有你統(tǒng)計出來的這些數(shù)據(jù)才是有點意義的,才能叫數(shù)據(jù)。

當一個用戶在面對著自己網(wǎng)店的數(shù)據(jù)的時候,比如:每千人有5個人下單,有65%的訪客是男的,18-24歲的人群有30%,等等。甚至你給出了,你打敗了40%同類型商家的這樣的數(shù)據(jù)。作為一個商戶,面對這些數(shù)據(jù)時,大多數(shù)人的表現(xiàn)是完全不知道自己能干什么?是把網(wǎng)站改得更男性一點,還是讓年輕人更喜歡一點?完全不知道所措。

只要你去看一看,你會發(fā)現(xiàn),好些好些的數(shù)據(jù)分析出來的結(jié)果,看上去似乎不錯,但是其實完全不知道下一步該干什么?

所以,我覺得,數(shù)據(jù)分析的結(jié)果并不僅僅只是把數(shù)據(jù)呈現(xiàn)出來,而更應(yīng)該關(guān)注的是通過這些數(shù)據(jù)后面可以干什么?如果看了數(shù)據(jù)分析的結(jié)果后并不知道可以干什么,那么這個數(shù)據(jù)分析是失敗的。#p# 

總結(jié)

綜上所述,下面是我覺得數(shù)據(jù)挖掘或機器學習最重要的東西:

1)數(shù)據(jù)的質(zhì)量。分為數(shù)據(jù)的標準和數(shù)據(jù)的準確。數(shù)據(jù)中的雜音要盡量地排除掉。為了數(shù)據(jù)的質(zhì)量,大量人肉的工作少不了。

2)數(shù)據(jù)的業(yè)務(wù)場景。我們不可能做所有場景下的來,所以,業(yè)務(wù)場景和產(chǎn)品形態(tài)很重要,我個人感覺業(yè)務(wù)場景越窄越好。

3)數(shù)據(jù)的分析結(jié)果,要讓人能看得懂,知道接下來要干什么,而不是為了數(shù)據(jù)而數(shù)據(jù)。

搞數(shù)據(jù)挖掘的人很多,但成功的案例卻不多(相比起大量的嘗試來說),就目前而言,我似乎覺得目前的數(shù)據(jù)挖掘的技術(shù)是一種過渡技術(shù),還在摸索階段。另外,好些數(shù)據(jù)挖掘的團隊搞得業(yè)務(wù)不業(yè)務(wù),技術(shù)不技術(shù)的,為其中的技術(shù)人員感到惋惜……

不好意思,我只給出了問題,沒有建議,這也說明數(shù)據(jù)分析中有很多的機會……

最后,還要提的一個是“數(shù)據(jù)中的個人隱私問題”,這似乎就像那些有悖倫理的黑魔法一樣,你要成功就得把自己變得黑暗。是的,數(shù)據(jù)就像一個王座一樣,像征著一種權(quán)力和征服,但登上去的路途一樣令人膽顫。

責任編輯:王程程 來源: 酷殼 – CoolShell.cn
相關(guān)推薦

2019-04-18 16:53:33

戴爾

2021-09-26 05:30:37

數(shù)字化轉(zhuǎn)型CIO數(shù)字化

2016-03-30 10:29:28

2017-08-17 16:20:48

小程序微信騰訊

2019-03-20 10:10:17

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2019-04-30 13:45:05

OpenStack云計算公共云

2015-05-29 13:14:28

4G

2019-12-18 14:15:48

大數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)

2020-08-26 09:41:49

中國廣電700MHz5G

2022-01-25 10:25:33

IT業(yè)務(wù)轉(zhuǎn)型IT投資

2015-03-03 10:00:39

2012-11-05 11:20:31

HTML5FaceBook

2021-05-20 12:48:49

IT基礎(chǔ)設(shè)施IT

2013-06-27 10:32:09

HTML5游戲手機游戲

2013-01-22 10:35:46

財報電信企業(yè)

2013-11-14 09:54:58

VMwareSDDC

2013-11-27 10:41:56

2014-11-12 16:00:12

火舞游戲

2019-07-11 15:13:33

AI芯片英偉達華為

2009-12-09 09:05:56

點贊
收藏

51CTO技術(shù)棧公眾號

国产一区亚洲一区| 欧美激情偷拍自拍| 亚洲视频每日更新| 在线综合视频网站| 宅男在线一区| 亚洲毛片在线观看.| 亚洲成人基地| 爽好久久久欧美精品| 57pao精品| 黑人巨大亚洲一区二区久 | 日韩av成人| 久久午夜老司机| 亚洲一区二区三区免费看| 婷婷亚洲五月色综合| 污污污污污污www网站免费| 久久亚洲专区| 97久久精品人人澡人人爽缅北| 自拍一区在线观看| 欧美一区二区三区视频在线 | 精品国产成人av在线免| 丁香高清在线观看完整电影视频| 久久69av| 国产日韩欧美精品| 草碰在线视频| 亚洲国产欧美在线| 羞羞在线观看网站| 91视视频在线观看入口直接观看www| 欧美日韩精品免费在线观看视频| 久久中文亚洲字幕| 日本久久久久久久久久久| www.91精品| 综合网中文字幕| 国模一区二区| 亚洲嫩模很污视频| 不卡av播放| 亚洲偷欧美偷国内偷| 欧美伦理91| 亚洲精品小视频在线观看| 九色porny丨国产首页在线| 亚洲精品一线二线三线无人区| 久久精品视频免费看| 91精品国产色综合久久不卡蜜臀| 成人在线观看黄色| 欧美老女人第四色| 精品美女在线观看视频在线观看| 欧美日韩国产精品自在自线| 免费在线看a| 亚洲精品一区二区三区在线观看| xxxx在线视频| 在线亚洲欧美视频| 国产一区二区三区精品在线观看 | www 四虎| 精品日韩中文字幕| 婷婷成人激情| 精品国产凹凸成av人导航| 男人天堂亚洲天堂| 色狠狠av一区二区三区香蕉蜜桃| 99ri日韩精品视频| 国产第一区电影| 亚洲人成毛片在线播放女女| 一本久道久久综合| 2023国产一二三区日本精品2022| 好吊的妞视频这里都有| 欧美午夜片在线观看| 天堂√8在线中文| 欧美激情综合色综合啪啪五月| 国产精品羞羞答答在线观看 | 香蕉大人久久国产成人av| 日本高清不卡的在线| 欧美激情一级片一区二区| 日韩在线电影一区| 国产亚洲一区二区三区四区| 嫩模私拍啪啪| 欧美一区二区美女| 久久9999免费视频| 亚洲一区美女视频在线观看免费| 亚洲国产网站| av影视在线| 国产在线视频在线| 福利一区二区在线观看| 性生活免费在线观看| 中文字幕日韩精品久久| 日韩视频在线你懂得| 黑人巨大精品| 国内精品在线观看视频| 欧美激情电影| 久久久久毛片免费观看| 国产精品无码av在线播放| 欧美成人性战久久| 好吊妞这里只有精品| 欧洲在线/亚洲| 一根才成人网| 国产精品丝袜高跟| 国产精品69毛片高清亚洲| 超碰在线图片| 亚洲色图在线观看| 亚洲深深色噜噜狠狠爱网站| 成人免费看片'免费看| 亚洲成人tv网| 国产精品久久久久av电视剧| 国产欧美日韩免费| 国产剧情一区在线| 黄色在线视频观看网站| 社区色欧美激情 | 亚洲精选久久| av黄色免费| 亚洲国产免费av| 小说区亚洲自拍另类图片专区| 熟女少妇在线视频播放| 3d动漫精品啪啪一区二区竹菊 | 91色在线观看| 成人av电影在线播放| www.亚洲免费| 国产精品国产三级国产在线观看| 亚洲精品永久免费精品| 日韩高清欧美| 亚洲成色www久久网站| 一区二区高清视频在线观看| 无遮挡爽大片在线观看视频 | 精品裸体bbb| av资源站久久亚洲| 中文字幕不卡在线播放| 在线高清av| 精品无人区一区二区三区 | 大桥未久一区二区| 日本高清免费不卡视频| 欧美一级全黄| 丰满少妇被猛烈进入高清播放| 精品成人在线观看| 亚洲国产精品第一区二区三区| 黄色一级影院| 久久久久久久久久久网站| 国产精品123区| 日本高清中文字幕在线| 91久久久久久久久久久| 亚洲一区图片| 亚洲欧洲av| av电影在线观看网址| 亚洲成年人在线| zzijzzij亚洲日本少妇熟睡| 青檬在线电视剧在线观看| 久久天天躁狠狠躁夜夜躁| 久久国产麻豆精品| 国产鲁鲁视频在线观看特色| 亚洲一区二区在线播放| 亚洲精品视频在线观看免费| 日韩黄色av| 欧美老熟妇喷水| 一道本无吗dⅴd在线播放一区| 久久精品国产清高在天天线| 888av在线| 久久天堂国产精品| 在线综合视频播放| 亚洲影院免费| 国产三区视频在线观看| 欧美下载看逼逼| 亚洲人成77777男人| 色乱码一区二区三区熟女| 欧美精品video| 欧美日韩国产123区| 久久久电影一区二区三区| 亚洲卡通动漫在线| 国产乱码精品一区二区三区av | 亚州av乱码久久精品蜜桃 | 国产三级中文字幕| 国产无套精品一区二区| 秋霞在线观看av| 亚洲不卡视频| 亚洲天堂日韩在线| 另类激情视频| 国外av在线| 宅男av一区二区三区| 日本精品性网站在线观看| 日韩美女视频一区二区在线观看| 99国产麻豆精品| 美女91精品| 国产精品v日韩精品v欧美精品网站 | 色一情一区二区三区四区| 亚洲欧美999| 欧美成人精品3d动漫h| 色呦呦在线视频| 亚洲激情视频网站| 欧美伦理视频网站| 欧美日韩综合色| 日韩一区二区三区四区| 欧美裸体一区二区三区| 91精品国产一区二区| 欧美综合一区二区| 欧美一级国产精品| 91麻豆精品国产91久久久久久| 欧美精品日韩一区| 日韩欧美在线不卡| 亚洲毛片在线观看| 国内精品久久久久久影视8| 国产成人av在线| 精品一区二区三区毛片| 精品国产一区二区三区无码| 久久综合给合久久狠狠色| 91地址最新发布| 97超碰人人看人人|