大數(shù)據(jù)下的用戶畫像和標(biāo)簽體系構(gòu)建

今天談下對(duì)大數(shù)據(jù)下的用戶畫像和標(biāo)簽體系構(gòu)建的一些關(guān)鍵點(diǎn)思考,對(duì)于用戶畫像和標(biāo)簽體系構(gòu)建實(shí)際上網(wǎng)上已經(jīng)有很多相關(guān)的歷史文章可以參考,今天文章這篇文章不會(huì)系統(tǒng)地去談?wù)w的構(gòu)建方法步驟,而是搞清楚里面的一些關(guān)鍵邏輯。
什么是用戶畫像?
簡(jiǎn)單點(diǎn)來(lái)說(shuō)用戶畫像是根據(jù)用戶的靜態(tài)基本屬性和動(dòng)態(tài)行為數(shù)據(jù)來(lái)構(gòu)建一個(gè)可標(biāo)簽化的用戶模型。對(duì)于靜態(tài)屬性包括了類似個(gè)人基本信息(地域,年齡,性別,婚姻),家庭信息,工作信息等;而動(dòng)態(tài)屬性則包括了學(xué)習(xí),工作,生活,娛樂(lè),社交活動(dòng)等產(chǎn)生的各種動(dòng)態(tài)行為,但是對(duì)于電商平臺(tái)來(lái)說(shuō)一般主要聚焦在用戶的購(gòu)買行為,點(diǎn)擊行為,瀏覽,評(píng)論,營(yíng)銷活動(dòng)參與行為,退換貨行為,支付行為等上面。
那么用戶的靜態(tài)和動(dòng)態(tài)屬性信息和標(biāo)簽有啥關(guān)系?
實(shí)際上對(duì)于用戶年齡,職業(yè),地域,婚姻情況等都是用戶的標(biāo)簽,但是這些標(biāo)簽更多的是在陳述用戶的基本事實(shí)信息,因此也被稱為事實(shí)標(biāo)簽。還有一類標(biāo)簽,類似白領(lǐng),潮流一族,高頻用戶,追求性價(jià)比等,這些標(biāo)簽不是簡(jiǎn)單對(duì)用戶靜態(tài)屬性,或單次動(dòng)態(tài)屬性的描述,而往往是經(jīng)過(guò)大量的用戶靜態(tài)和動(dòng)態(tài)行為屬性經(jīng)過(guò)抽象后形成的一直抽象標(biāo)簽。
比如一個(gè)用戶經(jīng)常購(gòu)買團(tuán)購(gòu)或秒殺區(qū)的商品,那么我們可能會(huì)給用戶打一個(gè)價(jià)格敏感型的標(biāo)簽。或者說(shuō)用戶經(jīng)常購(gòu)買電子類的新品發(fā)售,那么我們可能要給用戶打要給數(shù)碼潮人的標(biāo)簽。或者我們發(fā)現(xiàn)用戶最近開(kāi)始購(gòu)買類似某個(gè)品牌汽車的類似腳墊,汽車清潔用戶等商品,那么我們可以推斷給用戶打上有車一族的標(biāo)簽。
為何要給用戶畫像并標(biāo)簽化
簡(jiǎn)單來(lái)說(shuō)用戶畫像和標(biāo)簽化還是為了針對(duì)性營(yíng)銷的需要。任何一個(gè)商品,當(dāng)進(jìn)入到市場(chǎng)營(yíng)銷推廣階段的時(shí)候一定有其明確的目標(biāo)用戶群體,比如一個(gè)母嬰類商品,在推入市場(chǎng)后明確的市場(chǎng)定義和用戶群體細(xì)分為,面向:二胎家庭 + 高收入 + 價(jià)格不敏感 + 上班族
這個(gè)是商品本身的細(xì)分市場(chǎng)這個(gè)策略上面的每一個(gè)定位點(diǎn)實(shí)際上本身就是用戶畫像中的標(biāo)簽。那么當(dāng)我們對(duì)所有的用戶進(jìn)行標(biāo)簽化后,我們就很容易進(jìn)行匹配。
上面列的標(biāo)簽和用戶畫像庫(kù)中的匹配度越高,往往營(yíng)銷的針對(duì)性也就越強(qiáng),越是你需要最終關(guān)心的目標(biāo)用戶。比如一個(gè)用戶的標(biāo)簽庫(kù)模型和上面的四個(gè)點(diǎn)都匹配,那么在進(jìn)行針對(duì)性推薦的時(shí)候購(gòu)買行為達(dá)成的概率也就越高。
如果一個(gè)用戶二胎家庭 + 高收入 + 上班族這三個(gè)標(biāo)簽都慢點(diǎn),但是屬于價(jià)格敏感型用戶,那么我們完全就可以考慮在進(jìn)行團(tuán)購(gòu),秒殺的時(shí)候針對(duì)性推薦。
基于大數(shù)據(jù)分析的用戶畫像,實(shí)際要理解是可以從兩個(gè)不同的切入點(diǎn)進(jìn)入的。
其一是基于單個(gè)用戶,如張三進(jìn)行用戶畫像。
其二是針對(duì)某個(gè)商品,對(duì)其歷史購(gòu)買群體進(jìn)行用戶畫像
某個(gè)商品的歷史購(gòu)買群體形成的用戶畫像,實(shí)際i上本身就是商品的目標(biāo)用戶群體。那么拿著這個(gè)畫像區(qū)和第一種單個(gè)用戶的畫像庫(kù)中的標(biāo)簽進(jìn)行匹配分析。針對(duì)性營(yíng)銷的關(guān)鍵可以理解為這種匹配度。
數(shù)據(jù)采集和模型構(gòu)建
前面已經(jīng)談到對(duì)于用戶數(shù)據(jù)的采集分為了靜態(tài)屬性數(shù)據(jù)和動(dòng)態(tài)行為數(shù)據(jù)。
對(duì)于靜態(tài)屬性數(shù)據(jù)往往在用戶進(jìn)行注冊(cè)的時(shí)候就完成了初步的采集,當(dāng)前在用戶實(shí)名制注冊(cè)情況下可以采集到用戶身份證號(hào),婚姻情況等更進(jìn)一步的信息。當(dāng)用戶的一些靜態(tài)屬性仍然可以通過(guò)個(gè)人的一些行為數(shù)據(jù)進(jìn)行推測(cè)。比如用戶構(gòu)建大學(xué)輔導(dǎo)書籍,郵寄到學(xué)校地址等,往往可以進(jìn)一步推測(cè)用戶是一個(gè)大學(xué)生。
對(duì)于用戶的動(dòng)態(tài)行為往往就比較多了,動(dòng)態(tài)行為數(shù)據(jù)不是簡(jiǎn)單的購(gòu)買行為和購(gòu)買訂單,更加重要的是用戶瀏覽行為,搜索行為,點(diǎn)贊,評(píng)論,轉(zhuǎn)發(fā),添加購(gòu)物車等各種行為數(shù)據(jù)。這些動(dòng)態(tài)行為數(shù)據(jù)往往才能夠?yàn)榉治鐾茢嗥鸬疥P(guān)鍵作用。
比如用戶最近一直在搜索嬰兒車,尿不濕,奶瓶等商品,即使沒(méi)有發(fā)生購(gòu)買行為,你也可以推斷出用戶家里即將有剛出生的嬰兒這個(gè)核心標(biāo)簽。

也就是說(shuō)對(duì)于大部分運(yùn)營(yíng)平臺(tái),上面就是一個(gè)最簡(jiǎn)的數(shù)據(jù)采集模型,你可以采集用戶和商品的基礎(chǔ)屬性信息數(shù)據(jù),同時(shí)采集用戶在APP或網(wǎng)站上發(fā)生的購(gòu)買,瀏覽,搜索等動(dòng)態(tài)行為數(shù)據(jù)形成一個(gè)最基礎(chǔ)的原始數(shù)據(jù)庫(kù)。
當(dāng)談大數(shù)據(jù)的時(shí)候,實(shí)際不僅僅是談數(shù)據(jù)的多樣性和大數(shù)據(jù)量,更加重要的是數(shù)據(jù)的關(guān)聯(lián)性。用戶和用戶的關(guān)聯(lián)性,即我們常說(shuō)的用戶社交屬性信息;而商品本身也有商品的關(guān)聯(lián)性,商品A可以是商品B的一個(gè)子類,同時(shí)也和商品C同時(shí)屬于某一個(gè)商品類型等。
大數(shù)據(jù)分析的重點(diǎn)往往正是在于這種由人到物,由物到人形成的復(fù)雜關(guān)系網(wǎng)絡(luò)。

簡(jiǎn)單來(lái)說(shuō)就是當(dāng)我們對(duì)用戶,商品兩者的關(guān)系進(jìn)行擴(kuò)展后,將形成一個(gè)完整的靜態(tài)關(guān)系+動(dòng)態(tài)行為網(wǎng)絡(luò)結(jié)構(gòu)。這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)有點(diǎn)類似于我們前面談到的知識(shí)圖譜和語(yǔ)義圖。
為何要作這種擴(kuò)展?
簡(jiǎn)單來(lái)說(shuō)即使通過(guò)關(guān)系擴(kuò)展后,將形成更多可以追溯,可以關(guān)聯(lián),可以聚類的點(diǎn)。才有可能進(jìn)行更多的數(shù)據(jù)建模并進(jìn)行推理。
數(shù)據(jù)模型和數(shù)據(jù)聚類
常用的數(shù)據(jù)模型包括了自然語(yǔ)言處理和分析,回歸模型,聚類模型,文本挖掘和機(jī)器學(xué)習(xí)等。在模型構(gòu)建前有個(gè)重點(diǎn)就是數(shù)據(jù)本身的檢驗(yàn)(回答數(shù)據(jù)本身是否準(zhǔn)確可靠),數(shù)據(jù)的相關(guān)性分析等。
要注意進(jìn)行用戶畫像的時(shí)候,可能針對(duì)的是一個(gè)用戶群體,也可能針對(duì)的是一個(gè)具體的用戶群體。比如我們可以對(duì)月均消費(fèi)金額>1000元,消費(fèi)次數(shù)>2次的用戶群體進(jìn)行畫像,得到這個(gè)群體的年齡分布,學(xué)歷分布,地域分布等;其次我們也可以對(duì)張三這個(gè)特定用戶進(jìn)行畫像,給出他是小孩,動(dòng)漫迷,音樂(lè)發(fā)燒友等標(biāo)簽。
由個(gè)體到群體是進(jìn)行聚類的基礎(chǔ),即我們可以通過(guò)大量的個(gè)體行為數(shù)據(jù),基于某些關(guān)鍵維度進(jìn)行聚合,通過(guò)聚合得出以下大的歸類。比如對(duì)耳機(jī)類商品購(gòu)買,通過(guò)聚類分析后可能得出發(fā)燒+品質(zhì)型,嘗鮮型,價(jià)格敏感型等關(guān)鍵分類。
對(duì)于聚類完成后我們還需要進(jìn)一步對(duì)聚類的抽象用戶進(jìn)行畫像說(shuō)明,比如對(duì)于發(fā)燒型抽象用戶群體特征:20歲以下,學(xué)生,喜歡日系品牌,2000價(jià)格區(qū)間等。
聚類最終的結(jié)果將可用于針對(duì)性營(yíng)銷,類似當(dāng)我們推出一個(gè)發(fā)燒耳機(jī)的時(shí)候我們就知道推送給哪些用戶,或者當(dāng)我們有大的促銷優(yōu)惠的時(shí)候應(yīng)該推送哪些用戶等。
大數(shù)據(jù)下的用戶畫像
對(duì)于大數(shù)據(jù)下的用戶畫像實(shí)際上前面已經(jīng)談到,核心就是對(duì)用戶進(jìn)行標(biāo)簽化或圖譜化處理。這個(gè)標(biāo)簽可以是簡(jiǎn)單的事實(shí)標(biāo)簽,那么不需要建模,也不需要推理。
但是更多的是抽象標(biāo)簽,需要進(jìn)行模型建設(shè)和推理。
下面梳理下識(shí)別和分析維度的過(guò)程簡(jiǎn)單來(lái)說(shuō)對(duì)于電商大數(shù)據(jù)分析中的用戶畫像,其核心的展開(kāi)邏輯應(yīng)該是如此的,即是:用戶購(gòu)買或希望購(gòu)買某一個(gè)商品。
可以看到我們所有的用戶分析的維度展開(kāi)均是基于上面這句話展開(kāi),可以看到兩個(gè)靜態(tài)的對(duì)象(用戶,商品)通過(guò)購(gòu)買或潛在購(gòu)買行為發(fā)生了關(guān)系和鏈接。那實(shí)際維度展開(kāi)過(guò)程即:
a.用戶基本屬性先展開(kāi)第一層
包括了性別,年齡,區(qū)域,婚否,工作還是學(xué)生,年收入,是否有小孩,是否有車,電話號(hào)碼等。(第一層展開(kāi)里面會(huì)出現(xiàn)問(wèn)題,即有些基礎(chǔ)數(shù)據(jù)我們沒(méi)法收集到,比如是否有車?那么我們可以從用戶購(gòu)買行為來(lái)反向推測(cè)用戶是否有車)。
第一層展開(kāi)后涉及到第二層的展開(kāi),比如區(qū)域,區(qū)域本身又是一個(gè)樹(shù)狀對(duì)象,可以作為展開(kāi)和分析的維度。通過(guò)手機(jī)號(hào)我們可以分析出運(yùn)營(yíng)商,進(jìn)入轉(zhuǎn)到運(yùn)營(yíng)商維度。
b.對(duì)于商品同樣,可以先做第一層的展開(kāi)
商品本身有商品的類目,那么類目是一個(gè)重要的分析維度。即由商品類目構(gòu)成的商品樹(shù)狀展開(kāi)結(jié)構(gòu)式商品的一個(gè)核心數(shù)據(jù)。即可以朝上進(jìn)行類目聚合歸納,又可以向下進(jìn)行演繹推理。其次,一個(gè)商品涉及到自營(yíng)或其它的2B商家,那么就涉及到商家和品牌這些維度,這些維度同樣也是可以進(jìn)行展開(kāi)的點(diǎn)。最后,任何一個(gè)商品本身還存在其它的關(guān)聯(lián)類商品,商品關(guān)聯(lián)往往是基于某些關(guān)鍵業(yè)務(wù)活動(dòng)場(chǎng)景進(jìn)行的組合。
c.動(dòng)態(tài)行為展開(kāi)
動(dòng)態(tài)行為包括了購(gòu)買行為和潛在購(gòu)買行為,對(duì)于瀏覽,點(diǎn)評(píng),放入購(gòu)物車等都可以納入潛在購(gòu)買行為。實(shí)際上我們應(yīng)該更加關(guān)注潛在購(gòu)買行為,促使?jié)撛谫?gòu)買轉(zhuǎn)變?yōu)樽罱K購(gòu)買。
一次購(gòu)買就涉及到購(gòu)買的時(shí)間,購(gòu)買的地點(diǎn),PC端還是移動(dòng)端購(gòu)買,購(gòu)買的時(shí)候用的手機(jī),購(gòu)買的具體商品,購(gòu)買的總金額,支付的方式,送貨的方式,是否基于促銷活動(dòng)購(gòu)買,是否使用打折券,退貨或換貨情況等。這些都應(yīng)該納入對(duì)動(dòng)態(tài)購(gòu)買行為的分析中。
b.基于關(guān)系驅(qū)動(dòng)的進(jìn)一步分析
前面已經(jīng)談到了靜態(tài)的關(guān)系數(shù)據(jù)和動(dòng)態(tài)的行為數(shù)據(jù)往往形成一張復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)本身可以用于聚合分析,關(guān)系推理等。
比如當(dāng)發(fā)現(xiàn)張三和李四購(gòu)買訂單的配送地址都是同一個(gè)公司地址的時(shí)候,你可以初步推理張三和李四實(shí)際是屬于同事關(guān)系。
再比如當(dāng)你發(fā)現(xiàn)張三的所有同事關(guān)系都已經(jīng)被動(dòng)態(tài)行為屬性和購(gòu)買行為打上了某個(gè)標(biāo)簽的時(shí)候,你就可以考慮張三本身是否也可能存在類似的標(biāo)簽,雖然張三這個(gè)時(shí)候并沒(méi)有通過(guò)自身的行為聚合出這個(gè)標(biāo)簽。
用戶全量行為數(shù)據(jù)的分散性
在當(dāng)前的互聯(lián)網(wǎng)格局下,可以看到用戶實(shí)際的大數(shù)據(jù)行為數(shù)據(jù)體現(xiàn)出明顯的分散性。比如對(duì)于交通出行旅游等數(shù)據(jù)往往被類似攜程,去哪兒網(wǎng)等采集存儲(chǔ);對(duì)于餐飲消費(fèi)類似數(shù)據(jù)往往被大眾點(diǎn)評(píng)存儲(chǔ);對(duì)于商品購(gòu)買類往往體現(xiàn)在類似京東,天貓等電商平臺(tái);而對(duì)于強(qiáng)關(guān)系數(shù)據(jù)體現(xiàn)在電信運(yùn)營(yíng)商和微信,對(duì)于弱關(guān)系數(shù)據(jù)體現(xiàn)在類似微博等新媒體應(yīng)用,對(duì)于個(gè)人民生類數(shù)據(jù)往往則存儲(chǔ)在政府部門大數(shù)據(jù)中心。
而實(shí)際要對(duì)一個(gè)用戶進(jìn)行完整的畫像或行為數(shù)據(jù),需要的不僅僅是單一數(shù)據(jù),更加重要的是完全包括用戶衣食住行各個(gè)行為特征的全量數(shù)據(jù)。如果誰(shuí)能夠真正獲取到這種全量數(shù)據(jù),往往才能夠構(gòu)建最精確的用戶畫像,對(duì)于各個(gè)用戶來(lái)講也是將個(gè)人隱私完全暴露,這也和你光天化日大街上裸奔沒(méi)啥區(qū)別。
試想,當(dāng)我打開(kāi)攜程預(yù)定完出行機(jī)票或酒店的時(shí)候,進(jìn)入到京東電商后一句再給你推薦你可能需要的出行裝備的時(shí)候,這才是能夠做到跨APP域的精確用戶畫像和推薦。
所以對(duì)于大數(shù)據(jù)用戶畫像和標(biāo)簽構(gòu)建已經(jīng)不是一個(gè)簡(jiǎn)單的技術(shù)問(wèn)題,更加重要的是用戶行為和隱私數(shù)據(jù)的合法保護(hù)問(wèn)題。



























