国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

機器學習模型必不可少的5種數據預處理技術

新聞 人工智能
如果您曾經參與過數據科學項目,那么您可能會意識到數據挖掘的第一步和主要步驟是數據預處理。在現實生活問題中,我們得到的原始數據往往非?;靵y,機器學習模型無法識別模式并從中提取信息。

 [[324419]]

如果您曾經參與過數據科學項目,那么您可能會意識到數據挖掘的第一步和主要步驟是數據預處理。在現實生活問題中,我們得到的原始數據往往非常混亂,機器學習模型無法識別模式并從中提取信息。

1.處理空值:

空值是數據中任何行或列中缺失的值??罩党霈F的原因可能是沒有記錄或數據損壞。在python中,它們被標記為“Nan”。您可以通過運行以下代碼來檢查它

  1. data.isnull().sum() 

我們可以用該列的平均值或該列中最頻繁出現的項來填充這些空值。或者我們可以用-999這樣的隨機值替換Nan。我們可以使用panda庫中的fillna()函數來填充Nan的值。如果一列有大量的空值(假設超過50%),那么將該列從dataframe中刪除會更好。您還可以使用來自同一列中不為空的k近鄰的值來填充空值。Sklearn的KNNImputer()可以幫助您完成這項任務。

2. 處理離群值:

離群值是與數據中的其他值保持一定距離的數據點。我們可以使用可視化工具(例如Boxplots)來檢測離群值:

機器學習模型必不可少的5種數據預處理技術

通過繪制兩個特征向量之間的散點圖:

機器學習模型必不可少的5種數據預處理技術

散點圖中的離群值

如果您了解數據背后的科學事實(例如這些數據點必須位于的范圍),則可以將離群值排除在外。例如,如果年齡是您數據的特征,那么您就知道它必須介于0到100之間(或在某些情況下介​​于0到130歲之間)。但是,如果數據中的年齡值有些荒謬,例如300,那么必須將其刪除。如果機器學習模型的預測很關鍵,即微小的變化都很重要,那么您就不應該放棄這些離群值。同樣,如果離群值大量存在(例如25%或更多),那么它們很有可能代表有用的東西。在這種情況下,您必須仔細檢查離群值。

3. 歸一化或數據縮放:

如果您使用的是基于距離的機器學習算法,例如K近鄰,線性回歸,K均值聚類或神經網絡,那么在將數據輸入機器學習模型之前,對數據進行歸一化是一個好習慣。歸一化是指修改數值特征的值以使其達到共同的標度而不改變它們之間的相關性。不同數值特征中的值位于不同的范圍內,這可能會降低模型的性能,因此歸一化可以確保在進行預測時為特征分配適當的權重。一些常用的歸一化技術是:

a)Min-Max歸一化 -將特征縮放到最小和最大值之間的給定范圍。公式為:

X(scaled)=a+ (b-a)(X - Xmin)/(Xmax - Xmin)

其中a是最小值,b是最大值。

b)Z-score歸一化 -我們從每個特征中減去均值,然后除以其標準差,以使得到的縮放特征具有零均值和單位方差。公式為:

X(scaled)=(X - mean(X)) /σ

這樣,您可以將數據的分布更改為正態分布。

4. 編碼分類特征

分類特征是包含離散數據值的特征。如果一個分類特征有字符、單詞、符號或日期作為數據值,那么這些數據必須被編碼成數字,以便機器學習模型能夠理解,因為它們只處理數字數據。有三種方法來編碼你的數據:

a)標簽編碼:在 這種類型的編碼中,分類特征中的每個離散值都根據字母順序分配一個唯一的整數。在下面的示例中,您可以看到為每個水果分配了一個相應的整數標簽:

機器學習模型必不可少的5種數據預處理技術

標簽編碼通常適用于線性模型,如線性回歸,Logistic回歸以及神經網絡。

b)One-hot:在這種編碼類型中,分類特征中的每個離散值都分配有唯一的one-hot向量或由1和0組成的二進制向量。在one-hot向量中,僅離散值的索引標記為1,其余所有值標記為0。在下面的示例中,您可以看到為每個水果分配了對應的長度為5的one-hot向量:

機器學習模型必不可少的5種數據預處理技術

one-hot編碼通常可與基于樹的模型(例如隨機森林和梯度提升機)配合使用。

c)均值編碼-在 這種類型的編碼中,分類特征中的每個離散值都使用相應的均值目標標簽進行編碼。為了更好地理解,讓我們看下面的示例:

機器學習模型必不可少的5種數據預處理技術

我們有三個水果標簽['Apple','Banana','Orange']。每個水果標簽的平均編碼公式如下:

Encoded feature = True targets/Total targets

對于Apple來說,true targets是3,total targets是4,因此Apple的均值編碼是3/4 =0.75。類似地,Orange的編碼是1/2=0.5,banana的編碼是3/3 =1。均值編碼是標簽編碼的擴展版本,由于它考慮了目標標簽,因此與之相比更符合邏輯。

5. 離散化:

這也是一種很好的預處理技術,有時可以通過減小數據大小來提高模型的性能。它主要用于數值特征。在離散化中,數字特征分為bin / intervals。每個bin都包含一定范圍內的數值。一個bin中的值數量可以相同,也可以不同,然后將每個bin視為分類值。我們可以使用離散化將數值特征轉換為分類特征。

這些是實現機器學習模型時可以用來預處理數據的不同方法。希望本文對您有所幫助。

責任編輯:張燕妮 來源: 今日頭條
相關推薦

2018-01-10 22:31:07

機器學習開源開發

2021-03-21 22:32:23

5G網絡安全網絡攻擊

2011-03-22 15:58:35

私有云

2019-12-04 08:00:00

IT基礎架構自動化工具

2019-06-06 14:08:37

數據倉庫數據分析數據報表

2011-03-21 14:08:57

2022-03-30 16:13:27

元宇宙CDN負載均衡

2023-08-22 14:20:21

2023-05-29 09:00:15

2020-10-23 10:31:59

開發開源工具開源

2009-07-01 11:08:21

Firefox插件推薦

2022-03-14 14:36:31

大數據數據分析急速

2020-05-28 16:35:17

智慧城市技術傳感器

2013-07-24 09:22:59

BYOA自備應用程序云應用

2013-08-26 10:10:23

2014-12-01 15:18:31

虛擬機DockerLinux

2018-01-09 15:51:05

數據科學大數據工程師

2020-05-28 16:36:12

智慧城市大數據人工智能

2020-05-18 13:35:03

Web前端開源框架

2017-01-10 08:30:01

點贊
收藏

51CTO技術棧公眾號

亚洲欧洲自拍| 亚洲激情五月| 福利视频网站| 国产九色porny| 国产综合色一区二区三区| 欧洲一区二区在线观看| 精品无码久久久久国产| 伊人久久大香线蕉午夜av| 国产精品亚洲αv天堂无码| www国产在线观看| 欧美13videosex性极品| 噜噜噜狠狠夜夜躁精品仙踪林| 欧美人与牛zoz0性行为| 免费看黄色91| 日韩免费电影一区| 欧美精品久久久久久久免费观看| 韩剧1988在线观看免费完整版| 无码日韩人妻精品久久蜜桃| 亚洲欧美日本免费| av一级亚洲| 国产日产欧美一区| 欧美一级午夜免费电影| 日韩一区二区三区视频在线| 97视频com| 5278欧美一区二区三区| 国模大尺度私拍在线视频| 疯狂欧美牲乱大交777| 日韩极品视频在线观看| 欧美午夜不卡影院在线观看完整版免费| 日韩电影中文 亚洲精品乱码| 成人在线免费视频| 亚洲精品免费在线观看| 天天综合网日韩| 久久久久国产精品麻豆ai换脸 | 在线看av的网址| 最新日韩在线视频| 国产视频在线视频| 撸视在线观看免费视频| 国语一区二区三区| 蜜月aⅴ免费一区二区三区| 国产网红女主播精品视频| 欧美群妇大交群的观看方式| 日本不卡免费播放| 欧美性大战久久久| 精品黄色免费中文电影在线播放| 欧美日韩一区不卡| 二区三区在线观看| 精品三级在线观看| av中文在线资源库| 国产一区二区三区欧美| av免费在线一区| 久久精品国产欧美亚洲人人爽| 欧美成人免费全部网站| 欧美日韩ab片| 红桃视频在线观看一区二区| 91日本视频在线| 国产视频一区三区| 国产91av视频在线观看| 97国产一区二区| 天天视频天天爽| 亚洲国产综合色| se在线电影| 亚洲国产天堂久久综合网| 成人国产精选| 一级视频在线观看| 国产成人av电影在线观看| 国产精品9999| 在线视频中文字幕久| 日韩在线看片| 欧美精品一区二区在线播放| 色8久久影院午夜场| 久久综合免费视频影院| 在线看欧美视频| 国产精品一区二区久久久| 猛男gaygay欧美视频| 国产一区香蕉久久| 亚洲乱亚洲高清| 狂野欧美xxxx韩国少妇| 久久久久久久电影一区| 夜色77av精品影院| 99国产在线| 久久电影国产免费久久电影| 日本中文字幕亚洲| 国产精品国产三级国产三级人妇 | 免费在线国产| 一本一本久久a久久精品综合小说| 夜夜躁狠狠躁日日躁2021日韩| 黄色小网站91| 成人自拍视频网| 久久久午夜视频| 亚洲精品国产首次亮相| 日本黄色播放器| 亚洲欧美综合另类在线卡通| 91av资源在线| 久久精品美女视频网站| 欧美三级特黄| av久久久久久| 亚洲精品成人悠悠色影视| 91吃瓜网在线观看| xx视频.9999.com| 亚洲乱码免费伦视频| 国产精品啪啪啪视频| 亚洲激情图片小说视频| 精品精品导航| 日韩美女视频免费看| 精品一区二区在线视频| 日韩日韩日韩日韩| 日韩精品中文在线观看| 欧美wwwww| 国产freexxxx性播放麻豆| 精品国产91久久久久久老师| 日韩在线影院| 国产精品18毛片一区二区| 久久综合九色综合欧美98| www.欧美日本韩国| 国产精品人成电影| 91片黄在线观看| 在线网址91| 亚洲自拍av在线| 久久精品免视看| 国产精品蜜芽在线观看| 成人夜晚看av| 国产精品日韩精品欧美在线| 亚洲天堂av在线| 国产精品美女诱惑| 亚洲三级免费观看| 91久久青草| 亚洲精品国产系列| 91精品办公室少妇高潮对白| swag国产精品一区二区| 日本一本草久p| 欧美午夜电影网| 成人毛片在线| 中国免费黄视频| 九九热r在线视频精品| 六月婷婷色综合| av网站在线免费观看| 国产精品视频资源| **欧美大码日韩| 国产精品45p| 色欲av无码一区二区人妻| 日韩国产高清视频在线| 午夜在线一区| 日本三级在线视频| 国产精品国产精品| 欧美性猛交xxxx乱大交极品| 精品国产一区二区三区四区| 国产精品乱码久久久久| 在线观看成人黄色| 久久国产免费看| 成人av黄色| 免费成人在线观看av| 在线视频国内自拍亚洲视频| 日韩欧美不卡| 免费高清在线| 成人激情视频小说免费下载| 亚洲精品伦理在线| 精品国产一区二区三区久久久樱花| 网站一区二区三区| 欧美区在线播放| 国产欧美日韩三级| www.丝袜精品| 91人人网站| 日本在线精品视频| 亚洲影院理伦片| 外国成人激情视频| 国内三级在线观看| 极品尤物一区二区三区| 91精品国产综合久久久久久| 国产日产高清欧美一区二区三区| 国产网站在线免费观看| 欧美在线视频一区二区三区| 亚洲精品一区二区三区99| 免费成人美女在线观看| 三级在线观看视频| 免费看欧美一级片| 久久精品一偷一偷国产| 国产精品高清亚洲| 精品黄色一级片| 视频国产一区二区三区| 国产精品毛片一区视频| 欧美一级欧美三级在线观看| 久久成人av少妇免费| 四虎4545www国产精品| 久草综合在线观看| 国产精品久久久久不卡| 欧美日韩激情网| 性感少妇一区| 亚洲精品福利电影| 亚洲乱码国产一区三区| 国产精品日韩电影| 欧美高清视频一二三区| 国产成人av影院| 天堂在线精品| 亚洲欧美视频一区二区| 91网站在线观看免费| 2024亚洲男人天堂| 制服丝袜亚洲色图| 久久中文字幕电影| 国产综合欧美|