国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

如何用Python清理文本數(shù)據(jù)?

開發(fā) 后端
不是所有數(shù)據(jù)格式都會(huì)采用表格格式。隨著我們進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)的格式非常多樣化,包括圖像、文本、圖形等等。

 不是所有數(shù)據(jù)格式都會(huì)采用表格格式。隨著我們進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)的格式非常多樣化,包括圖像、文本、圖形等等。

因?yàn)楦袷椒浅6鄻?,從一個(gè)數(shù)據(jù)到另一個(gè)數(shù)據(jù),所以將這些數(shù)據(jù)預(yù)處理為計(jì)算機(jī)可讀的格式是非常必要的。

在本文中,將展示如何使用Python預(yù)處理文本數(shù)據(jù),我們需要用到 NLTK 和 re-library 庫。

 

如何用Python清理文本數(shù)據(jù)?

 

過程

1.文本小寫

在我們開始處理文本之前,最好先將所有字符都小寫。我們這樣做的原因是為了避免區(qū)分大小寫的過程。

假設(shè)我們想從字符串中刪除停止詞,正常操作是將非停止詞合并成一個(gè)句子。如果不使用小寫,則無法檢測到停止詞,并將導(dǎo)致相同的字符串。這就是為什么降低文本大小寫這么重要了。

用Python實(shí)現(xiàn)這一點(diǎn)很容易。代碼是這樣的:

 

  1. # 樣例 
  2. x = "Watch This Airport Get Swallowed Up By A Sandstorm In Under A Minute http://t.co/TvYQczGJdy" 
  3. # 將文本小寫 
  4. x = x.lower() 
  5. print(x) 
  6. >>> watch this airport get swallowed up by a sandstorm in under a minute http://t.co/tvyqczgjdy 

 

2.刪除 Unicode 字符

一些文章中可能包含 Unicode 字符,當(dāng)我們在 ASCII 格式上看到它時(shí),它是不可讀的。大多數(shù)情況下,這些字符用于表情符號(hào)和非 ASCII 字符。要?jiǎng)h除該字符,我們可以使用這樣的代碼:

 

  1. # 示例 
  2. x = "Reddit Will Now Quarantine‰Û_ http://t.co/pkUAMXw6pm #onlinecommunities #reddit #amageddon #freespeech #Business http://t.co/PAWvNJ4sAP" 
  3. # 刪除 unicode 字符 
  4. x = x.encode('ascii''ignore').decode() 
  5. print(x) 
  6. >>> Reddit Will Now Quarantine_ http://t.co/pkUAMXw6pm #onlinecommunities #reddit #amageddon #freespeech #Business http://t.co/PAWvNJ4sAP 

 

3.刪除停止詞

停止詞是一種對(duì)文本意義沒有顯著貢獻(xiàn)的詞。因此,我們可以刪除這些詞。為了檢索停止詞,我們可以從 NLTK 庫中下載一個(gè)資料庫。以下為實(shí)現(xiàn)代碼:

 

  1. import nltk 
  2. nltk.download() 
  3. # 只需下載所有nltk 
  4. stop_words = stopwords.words("english"
  5. # 示例 
  6. x = "America like South Africa is a traumatised sick country - in different ways of course - but still messed up." 
  7. # 刪除停止詞 
  8. x = ' '.join([word for word in x.split(' ') if word not in stop_words]) 
  9. print(x) 
  10. >>> America like South Africa traumatised sick country - different ways course - still messed up. 

 

4.刪除諸如提及、標(biāo)簽、鏈接等術(shù)語。

除了刪除 Unicode 和停止詞外,還有幾個(gè)術(shù)語需要?jiǎng)h除,包括提及、哈希標(biāo)記、鏈接、標(biāo)點(diǎn)符號(hào)等。

要去除這些,如果我們僅依賴于已經(jīng)定義的字符,很難做到這些操作。因此,我們需要通過使用正則表達(dá)式(Regex)來匹配我們想要的術(shù)語的模式。

Regex 是一個(gè)特殊的字符串,它包含一個(gè)可以匹配與該模式相關(guān)聯(lián)的單詞的模式。通過使用名為 re. 的 Python 庫搜索或刪除這些模式。以下為實(shí)現(xiàn)代碼:

 

  1. import re 
  2. # 刪除提及 
  3. x = "@DDNewsLive @NitishKumar  and @ArvindKejriwal can't survive without referring @@narendramodi . Without Mr Modi they are BIG ZEROS" 
  4. x = re.sub("@\S+"" ", x) 
  5. print(x) 
  6. >>>      and   can't survive without referring   . Without Mr Modi they are BIG ZEROS 
  7. # 刪除 URL 鏈接 
  8. x = "Severe Thunderstorm pictures from across the Mid-South http://t.co/UZWLgJQzNS" 
  9. x = re.sub("https*\S+"" ", x) 
  10. print(x) 
  11. >>> Severe Thunderstorm pictures from across the Mid-South 
  12. # 刪除標(biāo)簽 
  13. x = "Are people not concerned that after #SLAB's obliteration in Scotland #Labour UK is ripping itself apart over #Labourleadership contest?" 
  14. x = re.sub("#\S+"" ", x) 
  15. print(x) 
  16. >>> Are people not concerned that after   obliteration in Scotland   UK is ripping itself apart over   contest? 
  17. # 刪除記號(hào)和下一個(gè)字符 
  18. x = "Notley's tactful yet very direct response to Harper's attack on Alberta's gov't. Hell YEAH Premier! http://t.co/rzSUlzMOkX #ableg #cdnpoli" 
  19. x = re.sub("\'\w+", '', x) 
  20. print(x) 
  21. >>> Notley tactful yet very direct response to Harper attack on Alberta gov. Hell YEAH Premier! http://t.co/rzSUlzMOkX #ableg #cdnpoli 
  22. # 刪除標(biāo)點(diǎn)符號(hào) 
  23. x = "In 2014 I will only smoke crqck if I becyme a mayor. This includes Foursquare." 
  24. x = re.sub('[%s]' % re.escape(string.punctuation), ' ', x) 
  25. print(x) 
  26. >>> In 2014 I will only smoke crqck if I becyme a mayor. This includes Foursquare. 
  27. # 刪除數(shù)字 
  28. x = "C-130 specially modified to land in a stadium and rescue hostages in Iran in 1980... http://t.co/tNI92fea3u http://t.co/czBaMzq3gL" 
  29. x = re.sub(r'\w*\d+\w*''', x) 
  30. print(x) 
  31. >>> C- specially modified to land in a stadium and rescue hostages in Iran in ... http://t.co/ http://t.co/ 
  32. #替換空格 
  33. x = "     and   can't survive without referring   . Without Mr Modi they are BIG ZEROS" 
  34. x = re.sub('\s{2,}'" ", x) 
  35. print(x) 
  36. >>>  and can't survive without referring . Without Mr Modi they are BIG ZEROS 

 

5.功能組合

在我們了解了文本預(yù)處理的每個(gè)步驟之后,讓我們將其應(yīng)用于列表。如果仔細(xì)看這些步驟,你會(huì)發(fā)現(xiàn)其實(shí)每個(gè)方法都是相互關(guān)聯(lián)的。因此,必須將其應(yīng)用于函數(shù),以便我們可以按順序同時(shí)處理所有問題。在應(yīng)用預(yù)處理步驟之前,以下是文本示例:

 

  1. Our Deeds are the Reason of this #earthquake May ALLAH Forgive us all 
  2. Forest fire near La Ronge Sask. Canada 
  3. All residents asked to 'shelter in place' are being notified by officers. No other evacuation or shelter in place orders are expected 
  4. 13,000 people receive #wildfires evacuation orders in California  
  5. Just got sent this photo from Ruby #Alaska as smoke from #wildfires pours into a school 

 

在預(yù)處理文本列表時(shí),我們應(yīng)先執(zhí)行幾個(gè)步驟:

  • 創(chuàng)建包含所有預(yù)處理步驟的函數(shù),并返回預(yù)處理的字符串
  • 使用名為"apply"的方法應(yīng)用函數(shù),并使用該方法將列表鏈接在一起。

代碼如下:

 

  1. # 導(dǎo)入錯(cuò)誤的情況下 
  2. # ! pip install nltk 
  3. # ! pip install textblob 
  4. import numpy as np 
  5. import matplotlib.pyplot as plt 
  6. import pandas as pd 
  7. import re 
  8. import nltk 
  9. import string 
  10. from nltk.corpus import stopwords 
  11. # # 如果缺少語料庫 
  12. # 下載 all-nltk 
  13. nltk.download() 
  14. df = pd.read_csv('train.csv'
  15. stop_words = stopwords.words("english"
  16. wordnet = WordNetLemmatizer() 
  17. def text_preproc(x): 
  18.   x = x.lower() 
  19.   x = ' '.join([word for word in x.split(' ') if word not in stop_words]) 
  20.   x = x.encode('ascii''ignore').decode() 
  21.   x = re.sub(r'https*\S+'' ', x) 
  22.   x = re.sub(r'@\S+'' ', x) 
  23.   x = re.sub(r'#\S+'' ', x) 
  24.   x = re.sub(r'\'\w+''', x) 
  25.   x = re.sub('[%s]' % re.escape(string.punctuation), ' ', x) 
  26.   x = re.sub(r'\w*\d+\w*''', x) 
  27.   x = re.sub(r'\s{2,}'' ', x) 
  28.   return x 
  29. df['clean_text'] = df.text.apply(text_preproc) 

 

 

上面的文本預(yù)處理結(jié)果如下:

  1. deeds reason may allah forgive us 
  2. forest fire near la ronge sask canada 
  3. residents asked place notified officers evacuation shelter place orders expected 
  4.  people receive evacuation orders california  
  5. got sent photo ruby smoke pours school 

最后

以上內(nèi)容就是使用 Python 進(jìn)行文本預(yù)處理的具體步驟,希望能夠幫助大家用它來解決與文本數(shù)據(jù)相關(guān)的問題,提高文本數(shù)據(jù)的規(guī)范性以及模型的準(zhǔn)確度。

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2023-02-08 07:44:56

Pandas數(shù)據(jù)分析

2021-03-28 08:57:57

Python 文本數(shù)據(jù)

2011-04-08 14:45:08

文本數(shù)據(jù)Oracle

2020-07-10 09:49:53

數(shù)據(jù)清理數(shù)據(jù)分析查找異常

2025-05-14 13:23:19

數(shù)據(jù)模型AI

2023-06-11 17:00:06

2019-01-15 14:21:13

Python數(shù)據(jù)分析數(shù)據(jù)

2011-09-19 18:49:33

Vista

2017-11-03 12:57:06

機(jī)器學(xué)習(xí)文本數(shù)據(jù)Python

2024-05-23 08:48:21

2018-03-27 18:12:12

PythonHTML

2023-11-07 08:33:08

2023-02-08 07:09:40

PythonChatGPT語言模型

2024-06-05 09:17:31

Python數(shù)據(jù)清洗開發(fā)

2016-11-16 15:05:42

情感分析

2022-06-27 17:40:14

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2016-02-17 15:15:01

2021-03-18 10:21:45

數(shù)據(jù)科學(xué)大數(shù)據(jù)機(jī)器學(xué)習(xí)

2021-12-02 09:00:00

數(shù)據(jù)庫NoSQLWeb

2020-11-02 08:15:00

Python數(shù)據(jù)開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久欧美精品sm网站| 亚洲国产精品成人综合色在线婷婷| 久久久精品国产99久久精品芒果| 欧美日韩一区二区视频在线观看| 国产999精品久久久影片官网| 91插插插插插插插插| 综合激情久久| 亚洲精品观看| 亚洲人成网站免费播放| 久久久性生活视频| 国产亚洲欧美日韩精品一区二区三区| 国产成人在线观看免费网站| 国产亚洲精品一区二555| 欧美 日本 亚洲| 中国av一区| 在线免费精品视频| 午夜精品亚洲一区二区三区嫩草| 高清视频在线观看三级| 国产一区二区三区四| 欧美激情伊人电影| 三级ai视频| 雨宫琴音一区二区三区| 日韩一二三四区| 日本福利视频一区| 国产精品影视天天线| 69精品小视频| www.视频在线.com| 国产一区二区三区久久悠悠色av| 日韩国产伦理| 国产精品国产| 欧美人xxxx| 日韩在线第三页| 欧美久久综合| 日韩精品在线播放| 色琪琪原网站亚洲香蕉| 久久精品系列| 久久人人97超碰精品888| 黄色片在线播放| 九色综合国产一区二区三区| 久久久久久久久久久国产| 国产精品宾馆| 成人精品aaaa网站| 三上悠亚一区二区| 午夜精品视频一区| 人妻无码久久一区二区三区免费| 99精品视频在线播放观看| 91久久久久久| 国产一区二区三区朝在线观看| 一区二区三区在线视频观看 | 国产日韩欧美三级| 欧美成人久久久| 成人在线播放视频| 精品国产乱码久久久久久图片| www.99色| 在线欧美日韩国产| 国模冰冰炮一区二区| 色狠狠一区二区| 免费激情视频在线观看| 性感美女极品91精品| 亚洲婷婷噜噜| 亚洲va欧美va国产va天堂影院| 精品av中文字幕在线毛片| 亚洲理论在线a中文字幕| 亚洲视频在线播放| 玖玖精品在线视频| 国产亚洲高清一区| 欧美日韩国产在线观看| 成人免费网站在线观看视频| 精品福利一区二区三区| 最新av在线播放| 国产精品美女久久久久久久| 欧美日韩国产精品一卡| 成人免费av网站| 日韩av电影免费在线观看| 极品少妇一区二区三区精品视频| 亚洲一区二区免费在线| 成人偷拍自拍| 伊人亚洲福利一区二区三区| 国产三级在线观看| 亚洲欧洲成人精品av97| 波多野结衣激情| 亚洲国产精品一区制服丝袜| 国产精品吊钟奶在线| 久久国内精品| 国产精品久久久久久av下载红粉| 天堂蜜桃91精品| 岛国视频一区免费观看| 欧美日韩一二三四| 欧美高清无遮挡| eeuss鲁一区二区三区| 欧美亚洲综合一区| 美女网站在线| 成人欧美一区二区三区小说| 成人在线免费看| 欧美国产精品日韩| 先锋影音久久久| 久久大片网站| 欧美国产先锋| 国产日韩欧美自拍| 欧美三级午夜理伦三级小说| 欧美日韩xxxxx| 农村妇女一区二区| 国产精品我不卡| 911久久香蕉国产线看观看| 欧美在线观看一区二区三区| 精品国产乱码一区二区三区 | 麻豆传媒在线完整视频| 欧美亚洲一区三区| 久久夜色电影| 91成人在线播放| 成人国产精品免费观看| 日韩欧美一区二| 日韩免费福利电影在线观看| 美足av综合网| 国产一区二区三区在线观看网站| 99热这里只有精品8| 亚洲欧美日韩国产yyy| 精品一区二区三区视频在线观看| 在线观看午夜看亚太视频| 欧洲精品中文字幕| 久久99视频| 91免费在线视频| 亚洲你懂的在线视频| 亚洲欧洲动漫| 欧美日韩日本视频| 久久精品国内一区二区三区水蜜桃| 亚洲第一狼人区| 欧美日韩裸体免费视频| 91福利在线视频| 亚洲男人天堂古典| 日韩国产精品91| 男人添女人下部高潮视频在观看| 国产亚洲福利社区一区| 黄色毛片av| 在线视频一区二区三区| 欧洲成人一区二区| 欧美做受高潮电影o| www.成人在线| 污视频网站免费| 不用播放器成人网| 精品国产乱码久久久久久1区2匹| 日韩无套无码精品| 裸体女人亚洲精品一区| 26uuu欧美| 同心难改在线观看| 亚洲精品在线免费播放| 丝袜亚洲精品中文字幕一区| jizz亚洲| 欧美日韩精品中文字幕一区二区| 欧美肥妇毛茸茸| 日本精品视频| 国产精品av一区| 91国产成人在线| 免费视频一区| 涩涩视频在线| 国产精品日韩欧美| 日韩在线一区二区| heyzo一区| 国产一区二区三区小说| 亚洲午夜一区二区| 国产高清自产拍av在线| 国产成人艳妇aa视频在线| 日韩一区在线播放| 精品国产一区二区三区四区| 在线看三级网站视频| 超碰97在线播放| 久久久久久黄色| 中国av一区| 国产午夜在线观看| 相泽南亚洲一区二区在线播放| 在线日韩日本国产亚洲| 欧美天堂亚洲电影院在线观看| 在线视频二区| 黄色影视在线观看| 91精品国产91久久久| 欧美性欧美巨大黑白大战| 国产毛片精品视频| 国产精品美女久久久久久不卡 | ●精品国产综合乱码久久久久| 一区二区三区在线电影| 欧美巨大丰满猛性社交| 成人图片小说| 日本不卡在线播放| 992tv在线成人免费观看| 51精品国自产在线| 先锋资源久久| а√天堂资源官网在线资源| 久久午夜夜伦鲁鲁一区二区| 操一操视频一区| 久久深夜福利免费观看| 色网站国产精品| 大色综合视频网站在线播放| 大香煮伊手机一区| 亚洲精品综合精品自拍| 亚洲免费av观看| 激情深爱一区二区| 亚洲成人最新网站| 国产亚洲观看| 日本www在线观看视频| 高清日韩av|