国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

數(shù)據(jù)科學(xué)中的陷阱:定性變量的處理

大數(shù)據(jù)
在《數(shù)據(jù)科學(xué)中的陷阱:變量的數(shù)學(xué)運(yùn)算合理嗎?》中我們討論過(guò)定性變量,也就是表示類(lèi)別的變量,比如性別、省份等。對(duì)于這類(lèi)變量,不能在模型里直接使用它們,因?yàn)槎ㄐ宰兞恐g的數(shù)學(xué)計(jì)算是毫無(wú)意義的。另外,定性變量是一類(lèi)很常見(jiàn)的變量,通常帶著很有價(jià)值的信息。

在之前的文章里(《數(shù)據(jù)科學(xué)中的陷阱:變量的數(shù)學(xué)運(yùn)算合理嗎?》),我們討論過(guò)定性變量,也就是表示類(lèi)別的變量,比如性別、省份等。對(duì)于這類(lèi)變量,不能在模型里直接使用它們,因?yàn)槎ㄐ宰兞恐g的數(shù)學(xué)計(jì)算是毫無(wú)意義的。另一方面,定性變量是一類(lèi)很常見(jiàn)的變量,通常帶著很有價(jià)值的信息。因此,這篇文章就將討論如何正確地在模型里使用定性變量。

[[236343]]

對(duì)于定性變量,常見(jiàn)的處理方法有兩種:一種是將定性變量轉(zhuǎn)換為多個(gè)虛擬變量,另一種對(duì)將有序的定性變量轉(zhuǎn)換為定量變量。

一、虛擬變量

正如前文中討論的,直接對(duì)定性變量數(shù)字編碼,得到的變量將無(wú)法進(jìn)行有意義的數(shù)學(xué)運(yùn)算。那么,相應(yīng)的解決方法就是使得變換之后的變量不能直接做數(shù)學(xué)運(yùn)算。

為了便于理解,我們先來(lái)看一個(gè)簡(jiǎn)單的例子:使用身高和性別對(duì)體重構(gòu)建線性回歸模型。性別是一個(gè)二元定性變量,可能的取值為男或女。用兩個(gè)新生成的變量來(lái)取代性別,記為(x1, x2)。其中,x1 = 1表示性別為男, x1 = 0表示性別不為男; x2類(lèi)似,表示性別是否為女。在學(xué)術(shù)上,新生成的變量被稱(chēng)為虛擬變量(dummy variable)。虛擬變量是一種特殊的離散型變量,可能的值只有兩個(gè):0或1,因此也被稱(chēng)為0/1變量。

用y表示體重, z表示身高,于是有:

 

注意到,也就是變量和變量成線性關(guān)系。這會(huì)導(dǎo)致另外一個(gè)問(wèn)題:多重共線性(多重共線性源自線性模型,它是指由于自變量之間存在高度相關(guān)關(guān)系而使模型參數(shù)估計(jì)不準(zhǔn)確,我們會(huì)在后面的文章里詳細(xì)討論)這個(gè)由虛擬變量引起的多重共線性問(wèn)題在學(xué)術(shù)上被稱(chēng)為虛擬變量陷阱(dummy variable trap)。為了規(guī)避這個(gè)問(wèn)題,我們對(duì)公式(1)做如下的數(shù)學(xué)變換,得到:

 

上面的數(shù)學(xué)轉(zhuǎn)換可翻譯為:首先選擇性別男為基準(zhǔn)類(lèi)別,生成一維虛擬變量,變量的含義與之前相同。這個(gè)變量前面的系數(shù)b - a表示性別女相對(duì)于性別男(基準(zhǔn)類(lèi)別)的體重差異。需要注意的是,針對(duì)二元定性變量,從表面上來(lái)看,直接對(duì)變量數(shù)字編碼同虛擬變量效果一樣。但這只是一個(gè)巧合而已,兩種方法有本質(zhì)的區(qū)別。

將上面的方法推廣到n元定性變量(可能取值為n個(gè)的定性變量)。選擇一個(gè)類(lèi)別作為基準(zhǔn)類(lèi)別,并生成n - 1個(gè)虛擬變量,分別表示剩下的n - 1個(gè)類(lèi)別。在搭建模型時(shí),用這n - 1個(gè)新生成的虛擬變量代替原來(lái)的定性變量。具體過(guò)程如圖1所示。

 


圖1二、從定性變量到定量變量

前面討論的虛擬變量的方法是比較通用的處理方法。但這種方法有一個(gè)很明顯的缺點(diǎn):每個(gè)虛擬變量都是0或1,無(wú)法提供更多的信息。特別是對(duì)于多個(gè)有序的定性變量,這會(huì)損失掉每個(gè)定性變量本身的順序信息和定性變量間的關(guān)聯(lián)信息。為了解決這個(gè)問(wèn)題,常常根據(jù)類(lèi)別的順序,將定性變量轉(zhuǎn)換為定量變量。具體的轉(zhuǎn)換方法有很多,但限于篇幅,這里只討論其中的一種:針對(duì)二元分類(lèi)問(wèn)題的Ridit scoring(此方法在保險(xiǎn)業(yè)中應(yīng)用很廣),如圖2所示。

假設(shè)有序的定性變量x有t個(gè)可能的取值,記為。而且對(duì)于被預(yù)測(cè)值,排在后面的類(lèi)別,y = 1發(fā)生的可能性越小。也就是說(shuō),對(duì)于y = 1這件事,其他變量相同時(shí),類(lèi)別1的概率最大,類(lèi)別t的概率最小。用分別表示各個(gè)類(lèi)別所占比例,于是類(lèi)別的Ridit scoring為:

 

 

圖2對(duì)于一般的定性變量,我們也可以使用所謂的WOE(weight of evidence)方法來(lái)將其轉(zhuǎn)換為定量變量,這種方法在信貸風(fēng)控領(lǐng)域十分廣泛。具體來(lái)說(shuō),假設(shè)二元分類(lèi)問(wèn)題里有兩個(gè)類(lèi)別,用B和G表示(這樣標(biāo)記源自金融領(lǐng)域,B表示bad,G表示good)。同樣假設(shè),定性變量x有t個(gè)可能的取值,記為。那么對(duì)于取值i,它的WOE值為:

 

其中表示x等于i時(shí),B類(lèi)別的數(shù)量,表示B類(lèi)別的總數(shù)量;表示的意思類(lèi)似。

注:這篇文章的大部分內(nèi)容參考《精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)》。

責(zé)任編輯:未麗燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2018-07-03 15:51:44

數(shù)據(jù)科學(xué)陷阱數(shù)學(xué)運(yùn)算

2023-12-04 09:37:00

C++靜態(tài)變量

2025-11-18 01:55:00

2019-08-29 10:20:13

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2019-08-27 09:34:29

數(shù)據(jù)科學(xué)統(tǒng)計(jì)機(jī)器學(xué)習(xí)

2025-09-10 07:15:00

數(shù)據(jù)湖數(shù)據(jù)戰(zhàn)略AI驅(qū)動(dòng)

2019-12-13 07:58:34

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計(jì)

2022-04-28 10:29:38

數(shù)據(jù)數(shù)據(jù)收集

2019-02-14 14:47:39

大數(shù)據(jù)數(shù)據(jù)科學(xué)家企業(yè)

2017-12-13 10:08:26

大數(shù)據(jù)圖數(shù)據(jù)推理數(shù)據(jù)科學(xué)

2024-10-14 08:29:14

異步編程任務(wù)

2019-02-25 23:02:16

數(shù)據(jù)科學(xué)職業(yè)數(shù)據(jù)科學(xué)家

2018-10-28 18:30:51

數(shù)據(jù)科學(xué)數(shù)據(jù)項(xiàng)目管理

2019-09-09 15:28:04

數(shù)據(jù)科學(xué)帕累托法則工具

2025-09-15 09:33:52

2023-10-09 13:15:35

軟件測(cè)試

2024-11-29 15:34:01

2011-04-27 21:54:45

2009-07-29 17:40:56

ibmdwAIX

2010-08-09 14:08:36

培訓(xùn)認(rèn)證
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产精品不卡| 日韩在线视频国产| 美女诱惑一区| 99久久婷婷国产综合精品青牛牛| 污视频在线看操| 国产免费成人在线| 亚洲黄色成人久久久| 国产欧美韩国高清| 日韩综合视频在线观看| 欧美一级欧美三级| 五月激情六月综合| 99久久精品免费| 国产九色精品成人porny| 日韩亚洲在线视频| 国产精自产拍久久久久久蜜| 欧美激情在线观看| 亚洲欧美一区二区激情| 日韩限制级电影在线观看| 黄色一区二区在线观看| 亚洲男人的天堂在线aⅴ视频| 成人黄色大片在线观看| 国内精品国产成人| 国产高清精品在线| 精品一区二区免费视频| 老司机午夜精品视频在线观看| 亚洲激情中文在线| 91九色精品| 精品动漫av| 国产亚洲一区在线| 奇米四色…亚洲| 国产成人在线色| 国产精品一区二区三区四区| 国产在线播精品第三| 国产最新精品精品你懂的| 秋霞电影网一区二区| 精品一二线国产| 国产一区二三区好的| 成人午夜av电影| 久久免费视频一区| 久久久精品综合| 国产精品久久久久精k8 | 成人涩涩免费视频| 久久久99精品免费观看| 一区二区欧美国产| 欧美日韩第一区日日骚| 555夜色666亚洲国产免| 一夜七次郎国产精品亚洲| 欧美激情小视频| 91视频免费网站| 一区二区国产日产| 欧美一级在线看| 亚洲欧洲闷骚av少妇影院| 国产精品丝袜白浆摸在线 | 亚洲精品影院在线观看| 韩国一区二区在线观看| 99久久精品免费精品国产| 精品高清美女精品国产区| 亚洲黄色片网站| 欧洲午夜精品久久久| 成人免费福利视频| 香港经典三级在线| 樱桃视频免费看| 国产色婷婷在线| 免费观看成人www动漫视频| 亚洲茄子视频| 久久久久综合网| 精品国产免费一区二区三区四区| 国内精品久久久久| 日本免费一区二区三区| 免费女人黄页| 国产网红女主播精品视频| 欧美oldwomenvideos| 国产在线视视频有精品| 婷婷丁香久久五月婷婷| 精品国偷自产在线视频| 免费精品视频一区| 美女的诞生在线观看高清免费完整版中文 | 色婷婷综合久久| 久久久久久高潮国产精品视| 久久精品国产精品国产精品污 | 国产午夜精品一区理论片飘花| 91精品一区二区| 一本色道亚洲精品aⅴ| 欧美韩国理论所午夜片917电影| 91免费版看片| 国产福利视频在线观看| 欧美疯狂party性派对| 91蝌蚪porny九色| 538在线精品| 欧美日韩中文一区二区| 国产视频一区二区在线观看| 亚洲欧洲午夜一线一品| 高清国产在线一区| 天堂在线一二区| 欧美丰满老妇| 色综合视频一区二区三区高清| 国产精品久久久久久中文字| 手机在线成人免费视频| 四虎影视4hu4虎成人| 高清在线不卡av| 在线成人一区二区| 91大学生片黄在线观看| 久久久成人av毛片免费观看| 成人免费电影视频| 久久国产色av| caoporn超碰97| 久久夜色电影| 免费在线成人av电影| 欧美日韩一区二区三区电影| 999在线视频| 日韩精品乱码免费| 亚洲精品天天看| 色香阁99久久精品久久久| 国产二级片在线观看| 亚洲成人五区| 狠狠久久亚洲欧美专区| 国产一区二区三区免费不卡| 成人福利片网站| 国产精品1区2区| 国产拍精品一二三| 国产亚洲欧美aaaa| av天堂永久资源网| 欧美日韩播放| 欧美精品色一区二区三区| 亚洲精品美女久久7777777| 亚洲福利影视| 亚洲国产aⅴ天堂久久| 在线国产精品网| 亚洲天堂av在线播放| 亚洲精品蜜桃久久久久久| 欧美美女在线直播| 亚洲一区二区在线免费看| 国产精品巨作av| 99在线热播精品免费| 国产精品88a∨| 麻豆视频在线观看免费网站| 高清成人免费视频| 国产欧美亚洲精品| 国产精品xx| 全亚洲第一av番号网站| 国产美女搞久久| 成年女人的天堂在线| 99视频一区二区| 国产精品成人av性教育| 国内高清免费在线视频| 欧美国产视频在线| 国产伦精品一区二区三区视频黑人| 亚洲一区资源| 欧美精品v日韩精品v韩国精品v| 国产特级黄色大片| 国产精品hd| 欧美肥老妇视频| 色呦呦在线资源| 欧美日韩色婷婷| 日韩精品视频久久| 喷白浆一区二区| 国产欧美中文字幕| 亚洲精选av在线| 偷拍欧美精品| 一区二区三区四区在线观看视频| www.夜夜爽| 激情综合色综合久久综合| 国产精品视频免费在线观看| 偷拍精品精品一区二区三区| 亚洲国产日韩av| 亚洲xxxx2d动漫1| 国产成人精品免费| 亚洲视频sss| 欧美亚洲一区| 日韩麻豆第一页| 亚洲男同gay网站| 精品国产鲁一鲁一区二区张丽| 不卡av免费在线| 99国产欧美久久久精品| 亚洲国内在线| 美女看a上一区| 日韩理论片在线观看| 欧美一级一区| 日韩国产精品一区二区| 一区二区三区导航| 久久综合九九| 免费在线视频一区| 这里只有精品66| 九一久久久久久| 国产乱人伦精品一区二区三区| 免费一级片91| 免费超爽大片黄| 国产嫩草影院久久久久| 成人毛片免费在线观看| 一区二区三区小说| 在线免费看污| 欧美在线999| 中文在线最新版地址| 中文字幕日韩高清| 香蕉久久一区| 98精品国产高清在线xxxx天堂| jizzjizz欧美69巨大| 久久国产一区二区| 成人黄色av电影| 最近中文字幕mv2018在线高清|