国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

這些“秘密武器”,讓你輕松躋身Kaggle前2%

企業動態
本文中,我們會利用featexp來進行特征探索。我們將使用來自Kaggle競賽“違約者預測”的數據集,競賽的任務是基于已有的數據預測債務違約者。

[[250901]]

大數據文摘出品

編譯:Conrad、Hope、云舟

Kaggle的比賽真的好玩到令人上癮。在享受比賽的過程中,如果比賽成績能夠名列前茅那就非常棒了~~~

一位名叫Abhay Pawar的小哥開發了一些特征工程和機器學習建模的標準方法。這些簡單而強大的技術幫助他在Instacart Market Basket Analysis競賽中取得了前2%的成績。

下文是他以***人稱為小伙伴們分享他的技術經驗。希望對你有所幫助。enjoy!

要構建數值型連續變量的監督學習模型,最重要的方面之一就是好好理解特征。觀察一個模型的部分依賴圖有助于理解模型的輸出是如何隨著每個特征變化而改變的。

但是,繪制的圖形是基于訓練好的模型構建的,這會引發一些問題。而如果我們直接用未經學習的訓練數據去作圖,我們就能更好理解這些數據的深層含義。因為這樣做能幫助我們進行:

  • 特征理解
  • 識別嘈雜特征(這是最有趣的!)
  • 特征工程
  • 特征重要性
  • 特征調試
  • 泄漏檢測與理解
  • 模型監控

為了方便大家使用,我把這些方法用Python做了一個包,叫做featexp。本文中,我們會利用它來進行特征探索。我們將使用來自Kaggle競賽“違約者預測”的數據集,競賽的任務是基于已有的數據預測債務違約者。

  • featexp:https://github.com/abhayspawar/featexp
  • Home Credit Default Risk:https://www.kaggle.com/c/home-credit-default-risk/

特征理解

如果因變量 (分析目標) 是二分類數據,散點圖就不太好用了,因為所有點不是0就是1。針對連續型變量,數據點太多的話,會讓人很難理解目標和特征之間的關系。但是,用featexp可以做出更加友好的圖像。讓我們試一下吧!

Featexp可以把一個數字特征,分成很多個樣本量相等的區間(X軸)。然后,計算出目標的平均值 (Mean),并繪制出左上方的圖像。在這里,平均值代表違約率。圖像告訴我們,年紀 (DAYS_BIRTH) 越大的人,違約率越低。

這非常合理的,因為年輕人通常更可能違約。這些圖能夠幫助我們理解客戶的特征,以及這些特征是如何影響模型的。右上方的圖像表示每個區間內的客戶數量。

識別嘈雜特征

嘈雜特征容易造成過擬合,分辨噪音一點也不容易。在featexp里,你可以跑一下測試集或者驗證集,然后對比訓練集和測試集的特征趨勢,從而找出嘈雜的特征。

訓練集和測試集特征趨勢的對比

為了衡量噪音影響程度,featexp會計算兩個指標:

  • 趨勢相關性 (從測試繪圖中可見) :如果一個特征在訓練集和測試集里面表現出來的趨勢不一樣,就有可能導致過擬合。這是因為,模型從測試集里學到的一些東西,在驗證集中不適用。趨勢相關性可以告訴我們訓練集和測試集趨勢的相似度,以及每個區間的平均值。上面這個例子中,兩個數據集的相關性達到了99%。看起來噪音不是很嚴重!
  • 趨勢變化:有時候,趨勢會發生突然變化和反復變化。這可能就參入噪音了,但也有可能是特定區間內有其他獨特的特征對其產生了影響。如果出現這種情況,這個區間的違約率就沒辦法和其他區間直接對比了。

下面這個特征,就是嘈雜特征,訓練集和測試集沒有相同的趨勢:兩者相關性只有85%。有時候,可以選擇丟掉這樣的特征。

嘈雜特征的例子

拋棄相關性低的特征,這種做法在特征非常多、特征之間又充滿相關性的情況下比較適用。這樣可以減少過擬合,避免信息丟失。不過,別把太多重要的特征都丟掉了;否則模型的預測效果可能會大打折扣。同時,你也不能用重要性來評價特征是否嘈雜,因為有些特征既非常重要,又嘈雜得不得了。

用與訓練集不同時間段的數據來做測試集可能會比較好。這樣就能看出來數據是不是隨時間變化的了。

Featexp里有一個 get_trend_stats() 函數,可以返回一個數據框 (Dataframe) ,顯示趨勢相關性和趨勢變化。

嘈雜特征的例子

get_trend_stats()返回的數據框

現在,可以試著去丟棄一些趨勢相關性弱的特征了,看看預測效果是否有提高。

用趨勢相關性進行不同特征選擇得到的的AUC值

用趨勢相關性進行不同特征選擇得到的的AUC值

我們可以看到,丟棄特征的相關性閾值越高,排行榜(LB)上的AUC越高。只要注意不要丟棄重要特征,AUC可以提升到0.74。有趣的是,測試集的AUC并沒有像排行榜的AUC變化那么大。完整代碼可以在featexp_demo記事本里面找到。

featexp_demo:

https://github.com/abhayspawar/featexp/blob/master/featexp_demo.ipynb

特征工程

通過查看這些圖表獲得的見解,有助于我們創建更好的特征。只需更好地了解數據,就可以實現更好的特征工程。除此之外,它還可以幫助你改良現有特征。下面來看另一個特征EXT_SOURCE_1:

EXT_SOURCE_1的特征與目標圖

EXT_SOURCE_1的特征與目標圖

具有較高EXT_SOURCE_1值的客戶違約率較低。但是,***個區間(違約率約8%)不遵循這個特征趨勢(上升并下降)。它只有-99.985左右的負值且人群數量較多。這可能意味著這些是特殊值,因此不遵循特征趨勢。幸運的是,非線性模型在學習這種關系時不會有問題。但是,對于像Logistic回歸這樣的線性模型,如果需要對特殊值和控制進行插值,就需要考慮特征分布,而不是簡單地使用特征的均值進行插補。

特征重要性

Featexp還可以幫助衡量特征的重要性。DAYS_BIRTH和EXT_SOURCE_1都有很好的趨勢。但是,EXT_SOURCE_1的人群集中在特殊值區間中,這表明它可能不如DAYS_BIRTH那么重要。基于XGBoost模型來衡量特征重要性,發現DAYS_BIRTH實際上比EXT_SOURCE_1更重要。

特征調試

查看Featexp的圖表,可以幫助你通過以下兩項操作來發現復雜特征工程代碼中的錯誤:

零方差特征只展現一個區間

零方差特征只展現一個區間

  • 檢查特征的人群分布是否正確。由于一些疏忽,我遇到過多次類似上面這樣的極端情況。
  • 在查看這些圖之前,我總是會先做假設,假設特征趨勢會是什么樣子的。如果特征趨勢看起來不符合預期,可能暗示著存在某些問題。實際上,這個驗證趨勢假設的過程使機器學習模型更有趣了!

泄漏檢測

從目標到特征的數據泄漏會導致過擬合。泄露的特征具有很高的特征重要性。要理解為什么在特征中會發生泄漏是很困難的,查看featexp圖像可以幫助理解這一問題。

在“Nulls”區間的特征違約率為0%,同時,在其他所有區間中的違約率為100%。顯然,這是泄漏的極端情況。只有當客戶違約時,此特征才有價值。基于此特征,可能是因為一個故障,或者因為這個特征在違約者中很常見。了解泄漏特征的問題所在能讓你更快地進行調試。

理解為什么特征會泄漏

理解為什么特征會泄漏 

模型監控

由于featexp可計算兩個數據集之間的趨勢相關性,因此它可以很容易地利用于模型監控。每次我們重新訓練模型時,都可以將新的訓練數據與測試好的訓練數據(通常是***次構建模型時的訓練數據)進行比較。趨勢相關性可以幫助你監控特征信息與目標的關系是否發生了變化。

這些簡單的步驟總能幫助我在Kaggle或者實際工作中構建更好的模型。用featexp,花15分鐘去觀察那些圖像,是十分有價值的:它會帶你一步步看清黑箱里的世界。

還有什么其他方法可以幫助我們對特征進行探索嗎?如果你有更棒的想法,歡迎發郵件跟我交流abhayspawar@gmail.com。感謝你的閱讀!

相關報道:

https://towardsdatascience.com/my-secret-sauce-to-be-in-top-2-of-a-kaggle-competition-57cff0677d3c

【本文是51CTO專欄機構大數據文摘的原創文章,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2013-10-16 09:28:14

亞馬遜AWSSDN

2024-07-11 08:34:48

2013-10-16 09:33:36

亞馬遜AWSSDN

2025-08-01 08:28:46

Kotlin代碼冒號

2011-08-11 17:05:26

2014-01-07 10:46:39

2019-11-27 10:40:34

數據工具CIO

2023-05-08 14:54:00

AI任務HuggingGPT

2015-03-30 16:58:05

秘密武器華為

2023-07-26 00:20:20

Java 8數組方式

2023-07-24 08:20:11

StreamJava方式

2025-08-27 01:00:00

DSPyAI開發

2009-10-29 09:21:42

數據中心完美的十四大秘

2023-11-29 07:04:19

Git工作效率

2019-11-27 10:38:37

數據分析數據準備工具

2015-06-08 09:50:07

Android M谷歌

2025-05-14 00:01:10

RxJS異步編程響應式

2022-02-11 10:47:17

CIOIT團隊企業

2009-07-28 10:36:58

云計算Google秘密武器

2023-02-24 10:26:34

語音AI人工智能
點贊
收藏

51CTO技術棧公眾號

免费网站免费进入在线| 三级不卡在线观看| 538在线一区二区精品国产| 天天综合天天操| 91丨九色丨国产丨porny| 最新欧美日韩亚洲| 一本色道久久综合| 999视频在线免费观看| 久草精品在线| 国产91色在线|| 女同另类激情重口| 久久伊人精品视频| 亚洲国产中文在线| 精品自在线视频| 国产精品一级在线观看| 久久亚洲综合国产精品99麻豆精品福利| 98色花堂精品视频在线观看| 日韩一区二区三免费高清| 看黄网站在线观看| 精品国产一二三区| 91吃瓜在线观看| 日韩精品在线观看视频| 免费v片在线观看| 亚洲老头老太hd| 国产综合色区在线观看| 中文字幕在线日韩| 涩涩网在线视频| 日韩中文第一页| 久久久久久久性潮| 国内精品久久久久久| 国产欧美日韩一区二区三区四区| 国产精品国模在线| 欧美另类综合| 久久艹中文字幕| 国内欧美视频一区二区| 黄色片网址在线观看| 久久久久久久久免费| 免费高清成人| 日本高清视频一区二区| 国产黄色小视频在线| 精品国产百合女同互慰| 三上悠亚国产精品一区二区三区| 国产亚洲福利一区| 一区二区在线免费播放| 国产成人精品免高潮在线观看 | 91夜夜揉人人捏人人添红杏| 亚洲电影成人| 99热都是精品| 中文字幕不卡在线观看| 四虎在线观看| 欧美www视频| 开心久久婷婷综合中文字幕| 国产成人精品电影久久久| 韩日欧美一区| 九九热只有这里有精品| 一区二区三区在线不卡| 日本亚洲精品| 日韩视频一区在线| 国产精品久久久久久久久久齐齐| 亚洲欧美日韩天堂| 麻豆三级在线观看| 成人爱爱电影网址| 92看片淫黄大片一级| 日韩国产欧美| 日韩乱码在线视频| 国产精品91一区| 亚洲综合三区| 成年人网站国产| 亚洲夂夂婷婷色拍ww47| 日韩av毛片| 97视频在线观看免费| 国产精品呻吟| 亚洲国产精品久久久久爰色欲| 亚洲国产精品久久久久婷婷884| av片在线观看网站| 欧美国产日韩一区二区三区| 日韩成人手机在线| 性久久久久久久| 黄瓜视频成人app免费| 国产狼人综合免费视频| 久久爱www久久做| 色老板在线视频| 日韩av最新在线观看| 在线日韩网站| 日韩国产成人无码av毛片| 亚洲国产日日夜夜| 欧美日韩激情电影| 国产精品一区二区av| 中文字幕不卡在线| 欧美aa免费在线| 国产在线视频欧美| 久久久综合视频| 91网在线看| 成人免费网站在线看| 久久麻豆一区二区| av手机免费在线观看| 99re国产| 亚洲欧洲综合另类| 激情亚洲小说| 深夜福利成人| 在线看国产一区| 国产尤物久久久| 国产成人手机视频| 亚洲天堂av女优| 人妖欧美一区二区| 欧美午夜电影一区二区三区| 国产97在线观看| 欧美激情一区二区三区四区| 台湾成人免费视频| 椎名由奈jux491在线播放| 69堂成人精品免费视频| 91tv精品福利国产在线观看| 福利视频网站| 午夜精品久久久久久久久久久久| youjizz久久| 成人影院在线视频| 久久青青草原| 91黄色免费版| 欧美另类专区| 四虎影视精品成人| 欧美一级黑人aaaaaaa做受| 成人99免费视频| 欧美三级精品| 人妻互换免费中文字幕| 亚洲欧美日韩直播| 韩国女主播成人在线观看| 中文国产字幕在线观看| 欧美重口乱码一区二区| 日韩午夜精品电影| 久久久久国产一区二区| av网站免费在线观看| 久久久精品国产一区二区三区| 欧美在线高清视频| 欧美日韩国产亚洲一区| 精品资源在线看| 97国产超碰| 欧美日韩dvd在线观看| 亚洲深爱激情| 在线免费av导航| 日本黄色播放器| 在线成人激情黄色| av影院午夜一区| 91在线一区| 天天综合天天操| 日韩av片永久免费网站| 亚洲高清视频中文字幕| 99精品视频在线观看免费播放| 360天大佬第二季在线观看| 国产欧美一区二区三区久久人妖| 亚洲国产裸拍裸体视频在线观看乱了| 精品在线99| 国产资源在线观看| 欧美精品在线一区| 国产丝袜精品第一页| 91在线观看视频| 欧美自拍一区| 免费在线视频一级不卡| 美日韩精品免费| 亚洲欧美日韩网| 国产精品天干天干在观线 | 制服丝袜av成人在线看| 麻豆精品在线视频| 成人在线视频区| 最新中文字幕av专区| 另类欧美小说| 国产亚洲激情视频在线| 中文字幕在线观看不卡| 香蕉久久网站| heyzo在线播放| 欧美 日韩 国产 激情| 成人激情视频在线播放| 欧美一级二级在线观看| 91在线视频播放地址| 国产精选一区| 天使と恶魔の榨精在线播放| 毛片在线视频播放| 日韩av免费看网站| 欧美一级爆毛片| 国产校园另类小说区| 综合天堂久久久久久久| 午夜影院在线观看国产主播| 超碰在线公开97| 国产一区在线观| 久久久精品一区二区三区| 亚洲午夜精品在线| 美女视频一区二区三区| 日韩美女国产精品| 国产蜜臀一区二区打屁股调教| 色婷婷成人在线| 任我爽在线视频精品一| 2019最新中文字幕| 亚洲国产精品女人久久久| 亚洲免费资源在线播放| 可以免费看不卡的av网站| 偷窥自拍亚洲色图精选| 91豆花视频在线播放| www免费在线观看视频| 六月婷婷激情网| 91美女福利视频高清| 日韩一区二区福利|