国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

向量化與HashTrick在文本挖掘中預(yù)處理中的體現(xiàn)

人工智能 深度學(xué)習(xí)
在(文本挖掘的分詞原理)中,我們講到了文本挖掘的預(yù)處理的關(guān)鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關(guān)鍵的特征預(yù)處理步驟有向量化或向量化的特例Hash Trick,本文我們就對向量化和特例Hash Trick預(yù)處理方法做一個總結(jié)。

[[201071]]

前言

在(文本挖掘的分詞原理)中,我們講到了文本挖掘的預(yù)處理的關(guān)鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關(guān)鍵的特征預(yù)處理步驟有向量化或向量化的特例Hash Trick,本文我們就對向量化和特例Hash Trick預(yù)處理方法做一個總結(jié)。

詞袋模型

在講向量化與Hash Trick之前,我們先說說詞袋模型(Bag of Words,簡稱BoW)。詞袋模型假設(shè)我們不考慮文本中詞與詞之間的上下文關(guān)系,僅僅只考慮所有詞的權(quán)重。而權(quán)重與詞在文本中出現(xiàn)的頻率有關(guān)。

詞袋模型首先會進(jìn)行分詞,在分詞之后,通過統(tǒng)計每個詞在文本中出現(xiàn)的次數(shù),我們就可以得到該文本基于詞的特征,如果將各個文本樣本的這些詞與對應(yīng)的詞頻放在一起,就是我們常說的向量化。向量化完畢后一般也會使用TF-IDF進(jìn)行特征的權(quán)重修正,再將特征進(jìn)行標(biāo)準(zhǔn)化。 再進(jìn)行一些其他的特征工程后,就可以將數(shù)據(jù)帶入機(jī)器學(xué)習(xí)算法進(jìn)行分類聚類了。

詞袋模型的三部曲:

  • 分詞(tokenizing);
  • 統(tǒng)計修訂詞特征值(counting);
  • 標(biāo)準(zhǔn)化(normalizing);

與詞袋模型非常類似的一個模型是詞集模型(Set of Words,簡稱SoW),和詞袋模型***的不同是它僅僅考慮詞是否在文本中出現(xiàn),而不考慮詞頻。也就是一個詞在文本在文本中出現(xiàn)1次和多次特征處理是一樣的。在大多數(shù)時候,我們使用詞袋模型,后面的討論也是以詞袋模型為主。

當(dāng)然,詞袋模型有很大的局限性,因為它僅僅考慮了詞頻,沒有考慮上下文的關(guān)系,因此會丟失一部分文本的語義。但是大多數(shù)時候,如果我們的目的是分類聚類,則詞袋模型表現(xiàn)的很好。

BoW之向量化

在詞袋模型的統(tǒng)計詞頻這一步,我們會得到該文本中所有詞的詞頻,有了詞頻,我們就可以用詞向量表示這個文本。這里我們舉一個例子,例子直接用scikit-learn的CountVectorizer類來完成,這個類可以幫我們完成文本的詞頻統(tǒng)計與向量化,代碼如下:

  1. from sklearn.feature_extraction.text import CountVectorizer   
  2. corpus=["I come to China to travel",  
  3.    "This is a car polupar in China",           
  4.    "I love tea and Apple ",    
  5.    "The work is to write some papers in science"]  
  6. print vectorizer.fit_transform(corpus) 

 

我們看看對于上面4個文本的處理輸出如下:

  1. (0, 16)1 
  2.  (0, 3)1 
  3.  (0, 15)2 
  4.  (0, 4)1 
  5.  (1, 5)1 
  6.  (1, 9)1 
  7.  (1, 2)1 
  8.  (1, 6)1 
  9.  (1, 14)1 
  10.  (1, 3)1 
  11.  (2, 1)1 
  12.  (2, 0)1 
  13.  (2, 12)1 
  14.  (2, 7)1 
  15.  (3, 10)1 
  16.  (3, 8)1 
  17.  (3, 11)1 
  18.  (3, 18)1 
  19.  (3, 17)1 
  20.  (3, 13)1 
  21.  (3, 5)1 
  22.  (3, 6)1 
  23.  (3, 15)1 

 

可以看出4個文本的詞頻已經(jīng)統(tǒng)計出,在輸出中,左邊的括號中的***個數(shù)字是文本的序號,第2個數(shù)字是詞的序號,注意詞的序號是基于所有的文檔的。第三個數(shù)字就是我們的詞頻。

我們可以進(jìn)一步看看每個文本的詞向量特征和各個特征代表的詞,代碼如下:

  1. print vectorizer.fit_transform(corpus).toarray() 
  2.  
  3. print vectorizer.get_feature_names() 

 

輸出如下:

  1. [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] 
  2.  
  3. [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] 
  4.  
  5. [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] 
  6.  
  7. [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]] 
  8.  
  9. [u'and', u'apple', u'car', u'china', u'come', u'in', u'is', u'love', u'papers', u'polupar', u'science', u'some', u'tea', u'the', u'this', u'to', u'travel', u'work', u'write'

 

可以看到我們一共有19個詞,所以4個文本都是19維的特征向量。而每一維的向量依次對應(yīng)了下面的19個詞。另外由于詞”I”在英文中是停用詞,不參加詞頻的統(tǒng)計。

由于大部分的文本都只會使用詞匯表中的很少一部分的詞,因此我們的詞向量中會有大量的0。也就是說詞向量是稀疏的。在實(shí)際應(yīng)用中一般使用稀疏矩陣來存儲。將文本做了詞頻統(tǒng)計后,我們一般會通過TF-IDF進(jìn)行詞特征值修訂。

向量化的方法很好用,也很直接,但是在有些場景下很難使用,比如分詞后的詞匯表非常大,達(dá)到100萬+,此時如果我們直接使用向量化的方法,將對應(yīng)的樣本對應(yīng)特征矩陣載入內(nèi)存,有可能將內(nèi)存撐爆,在這種情況下我們怎么辦呢?***反應(yīng)是我們要進(jìn)行特征的降維,說的沒錯!而Hash Trick就是非常常用的文本特征降維方法。

Hash Trick

在大規(guī)模的文本處理中,由于特征的維度對應(yīng)分詞詞匯表的大小,所以維度可能非常恐怖,此時需要進(jìn)行降維,不能直接用我們上一節(jié)的向量化方法。而最常用的文本降維方法是Hash Trick。說到Hash,一點(diǎn)也不神秘,學(xué)過數(shù)據(jù)結(jié)構(gòu)的同學(xué)都知道。這里的Hash意義也類似。

在Hash Trick里,我們會定義一個特征Hash后對應(yīng)的哈希表的大小,這個哈希表的維度會遠(yuǎn)遠(yuǎn)小于我們的詞匯表的特征維度,因此可以看成是降維。具體的方法是,對應(yīng)任意一個特征名,我們會用Hash函數(shù)找到對應(yīng)哈希表的位置,然后將該特征名對應(yīng)的詞頻統(tǒng)計值累加到該哈希表位置。如果用數(shù)學(xué)語言表示,假如哈希函數(shù)h使第i個特征哈希到位置j,即h(i)=j,則第i個原始特征的詞頻數(shù)值ϕ(i)將累加到哈希后的第j個特征的詞頻數(shù)值ϕ¯上,即:

 

 

 

 

但是上面的方法有一個問題,有可能兩個原始特征的哈希后位置在一起導(dǎo)致詞頻累加特征值突然變大,為了解決這個問題,出現(xiàn)了hash Trick的變種signed hash trick,此時除了哈希函數(shù)h,我們多了一個哈希函數(shù):

 

這樣做的好處是,哈希后的特征仍然是一個無偏的估計,不會導(dǎo)致某些哈希位置的值過大。

在scikit-learn的HashingVectorizer類中,實(shí)現(xiàn)了基于signed hash trick的算法,這里我們就用HashingVectorizer來實(shí)踐一下Hash Trick,為了簡單,我們使用上面的19維詞匯表,并哈希降維到6維。當(dāng)然在實(shí)際應(yīng)用中,19維的數(shù)據(jù)根本不需要Hash Trick,這里只是做一個演示,代碼如下:

  1. from sklearn.feature_extraction.text import HashingVectorizer  
  2. vectorizer2=HashingVectorizer(n_features = 6,norm = None)print vectorizer2.fit_transform(corpus) 

 

輸出如下:

  1. (0, 1)2.0 
  2.  
  3. (0, 2)-1.0 
  4.  
  5. (0, 4)1.0 
  6.  
  7. (0, 5)-1.0 
  8.  
  9. (1, 0)1.0 
  10.  
  11. (1, 1)1.0 
  12.  
  13. (1, 2)-1.0 
  14.  
  15. (1, 5)-1.0 
  16.  
  17. (2, 0)2.0 
  18.  
  19. (2, 5)-2.0 
  20.  
  21. (3, 0)0.0 
  22.  
  23. (3, 1)4.0 
  24.  
  25. (3, 2)-1.0 
  26.  
  27. (3, 3)1.0 
  28.  
  29. (3, 5)-1.0 

 

和PCA類似,Hash Trick降維后的特征我們已經(jīng)不知道它代表的特征名字和意義。此時我們不能像上一節(jié)向量化時候可以知道每一列的意義,所以Hash Trick的解釋性不強(qiáng)。

小結(jié)

在特征預(yù)處理的時候,我們什么時候用一般意義的向量化,什么時候用Hash Trick呢?標(biāo)準(zhǔn)也很簡單。

一般來說,只要詞匯表的特征不至于太大,大到內(nèi)存不夠用,肯定是使用一般意義的向量化比較好。因為向量化的方法解釋性很強(qiáng),我們知道每一維特征對應(yīng)哪一個詞,進(jìn)而我們還可以使用TF-IDF對各個詞特征的權(quán)重修改,進(jìn)一步完善特征的表示。

而Hash Trick用大規(guī)模機(jī)器學(xué)習(xí)上,此時我們的詞匯量極大,使用向量化方法內(nèi)存不夠用,而使用Hash Trick降維速度很快,降維后的特征仍然可以幫我們完成后續(xù)的分類和聚類工作。當(dāng)然由于分布式計算框架的存在,其實(shí)一般我們不會出現(xiàn)內(nèi)存不夠的情況。因此,實(shí)際工作中我使用的都是特征向量化。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2011-06-19 08:59:59

錨文本

2012-08-24 09:58:09

ReactorDSSC

2009-12-29 14:58:31

WPF優(yōu)點(diǎn)

2018-10-11 10:38:31

前端JavaScript編程語言

2024-10-22 15:41:47

NumPyPython

2021-11-03 09:00:00

深度學(xué)習(xí)自然語言機(jī)器學(xué)習(xí)

2020-12-23 11:08:10

Python代碼文本

2009-12-29 14:00:02

WPF Dispatc

2021-03-28 08:57:57

Python 文本數(shù)據(jù)

2024-05-09 08:11:04

OllamaGo訓(xùn)練文本

2009-12-04 17:31:32

PHP編碼轉(zhuǎn)換

2016-05-23 15:42:07

數(shù)據(jù)挖掘

2025-01-26 10:21:54

2023-11-14 16:29:14

深度學(xué)習(xí)

2010-03-03 17:52:31

Python線程同步

2010-05-05 16:17:27

Oracle安全策略

2010-01-08 18:02:33

VB.NET事件

2024-12-20 13:00:00

Python文本清洗預(yù)處理

2021-11-09 20:18:21

數(shù)字化

2020-08-12 09:27:34

LinuxDNS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲国产精品久久久久婷蜜芽| 日本一区二区三区视频| 久久精品这里都是精品| 国产精品久久国产三级国电话系列 | 免费视频成人| 国产精品成人网| 翡翠波斯猫1977年美国| 黄视频网站在线看| 国产欧美日韩久久| 国产在线一区二区三区四区| 精品捆绑调教一区二区三区| 日韩理论片在线| 免费在线成人av电影| 深夜成人影院| 经典三级在线一区| 欧美日本啪啪无遮挡网站| 性色av一区| 99久久99久久综合| 九九久久99| 久久精品影视| 欧美黑人一级爽快片淫片高清| 国产天堂在线播放视频| 国产精品区一区二区三在线播放| 亚洲图片小说在线| 日韩精品在线一区| 91日韩在线专区| 欧美日韩在线大尺度| 亚洲影视综合| 国产成人啪午夜精品网站男同| 欧美极品少妇xxxxⅹ高跟鞋| 欧美性xxxx极品hd欧美风情| 亚洲成人av片| 另类色图亚洲色图| 国产精品视频26uuu| 欧美下载看逼逼| 亚洲不卡中文字幕无码| 午夜影院免费看| 18视频在线观看网站| 香蕉久久一区| 天天揉久久久久亚洲精品| 久久精品国产精品青草| 中文字幕日本不卡| 欧美一级精品在线| 欧美富婆性猛交| 国产成人精品自拍| 欧美日韩精品在线一区二区| 日韩a在线看| 福利一区二区免费视频| 日韩在线不卡| 国产精品69毛片高清亚洲| 亚洲在线视频网站| 精品小视频在线| 国产日韩欧美制服另类| 免费在线观看羞羞视频| **性色生活片久久毛片| 羞羞小视频视频| 国内精品在线播放| 国产成人8x视频一区二区| 亚洲精品高清在线观看| 日韩美女视频一区二区在线观看| 日韩在线播放av| av一区二区三区免费| 成人性免费视频| 久久久资源网| 外国成人毛片| 亚洲精品乱码久久久久久蜜桃麻豆| 91麻豆.com| 欧美高清www午色夜在线视频| 久久99视频精品| 精品不卡在线| 另类图片亚洲色图| 欧美v亚洲v| 成人av二区| 成人免费视频视频| 欧美午夜精品一区二区蜜桃| 欧美激情久久久久久| 亚洲精品久久久久久一区二区| 免费成人高清| 成人国产在线| 亚洲乱码久久| 亚洲欧美日韩电影| 亚洲欧美中文另类| 91国产在线免费观看| 国产成人久久婷婷精品流白浆| 麻豆av在线导航| 极品国产人妖chinesets亚洲人妖| 久久国产99| 国产精品久久久久9999吃药| 精品国产一区二区三区忘忧草 | 亚洲人a成www在线影院| 91热精品视频| 黄色免费网址大全| 极品视频在线| 欧美1区2区3区| 中文字幕在线视频一区| 国产亚洲日本欧美韩国| 精品亚洲欧美日韩| 在线视频尤物| 国产人妖ts一区二区| 国产精品一区二区三区乱码| 欧美二区三区91| 国产99久久精品一区二区永久免费 | 日本va中文字幕| 美女福利一区二区三区| 美女国产一区| 91精品办公室少妇高潮对白| 91极品视频在线| 337p粉嫩大胆噜噜噜鲁| 黄色漫画在线免费看| 国产精品入口66mio| 午夜免费久久看| 5278欧美一区二区三区| 免费在线观看亚洲视频| 国产高清不卡| 日本欧美加勒比视频| 欧美日韩mp4| 亚洲最大的免费| 免费看成年人视频在线观看 | 91在线播放视频| 在线影院自拍| 噜噜噜天天躁狠狠躁夜夜精品| eeuss影院一区二区三区| 日韩极品精品视频免费观看| 欧美午夜精品久久久久久蜜| 成人18在线| 亚洲男女av一区二区| 亚洲三级理论片| 国模视频一区二区三区| 欧美 日韩 国产一区| 91p九色成人| 国产最新精品精品你懂的| 日韩午夜激情免费电影| 精品一区二区三区日本| 成人一区二区不卡免费| 中文字幕午夜精品一区二区三区| 亚洲黄色小视频| 欧美中文字幕视频| 高清成人av| 免费观看性欧美大片无片| 成人午夜视频免费看| 亚洲精品国精品久久99热| 日韩欧美第二区在线观看| a毛片在线观看| 老司机久久99久久精品播放免费| 在线播放网站| 99久久99久久| 国产91精品一区二区麻豆亚洲| 免费国产a级片| 日韩av在线免费看| 久久国产夜色精品鲁鲁99| av影片在线看| 夜夜嗨av色一区二区不卡| 不卡av免费在线观看| 亚洲成人一品| 欧美a免费在线| 男人添女人下部高潮视频在观看| 欧美亚洲国产另类| 3d成人动漫网站| www.亚洲激情.com| 91九色美女在线视频| 97国产精东麻豆人妻电影 | 色婷婷综合久久久久| 亚洲网友自拍偷拍| 婷婷成人基地| 九色在线播放| 亚洲欧洲精品一区二区| 久久人人看视频| 激情成人中文字幕| 国产伊人精品| 国产一区二区三区福利| 国产在线精品一区免费香蕉| 一区二区在线观看视频在线观看| 成人在线免费观看91| www 四虎| 国产69精品久久久久久| 久久久99精品免费观看不卡| 人人视频精品| 人人妻人人澡人人爽欧美一区 | 一区不卡字幕| 日韩精品福利网站| 国产精品网站在线观看| 国产精品theporn| 91精品在线免费视频| 免费动漫网站在线观看| 少妇av一区二区三区无码| 国产男女猛烈无遮挡91| 亚洲天堂av在线免费观看| 黑人巨大精品欧美一区免费视频| 国产凹凸在线观看一区二区| 精品国产午夜| 欧美成人福利| 69视频在线| 2018高清国产日本一道国产| 亚洲精品国产精品久久| 国产精品69av| 色哟哟网站入口亚洲精品| 91精品久久久久久蜜臀| 亚洲欧美激情视频在线观看一区二区三区 | 在线看片国产福利你懂的| 亚洲小说欧美另类激情|