国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

五個很少被提到但能提高NLP工作效率的Python庫

開發 后端
本篇文章將分享5個很棒但是卻不被常被提及的Python庫,這些庫可以幫你解決各種自然語言處理(NLP)工作。

 本篇文章將分享5個很棒但是卻不被常被提及的Python庫,這些庫可以幫你解決各種自然語言處理(NLP)工作。

[[442381]]

Contractions

Contractions它可以擴展常見的英語縮寫和俚語。 并且可以快速、高效的處理大多數邊緣情況,例如缺少撇號。

例如:以前需要編寫一長串正則表達式來擴展文本數據中的(即 don’t → do not;can’t → cannot;haven’t → have not)。Contractions就可以解決這個問題

 

  1. pip install contractions 

使用樣例

 

  1. import contractions 
  2. s = "ive gotta go! i'll see yall later." 
  3. text = contractions.fix(s, slang=True
  4. print(text) 

 

結果

 

  1. ORIGINAL: ive gotta go! i’ll see yall later. 
  2. OUTPUT: I have got to go! I will see you all later. 

 

文本預處理的一個重要部分是創建一致性并在不失去太多意義的情況下減少單詞列表。 詞袋模型和 TF-IDF 創建大型稀疏矩陣,其中每個變量都是語料庫中一個不同的詞匯詞。 將縮略語進行還原可以進一步降低維度,還可以有助于過濾停用詞。

Distilbert-Punctuator

將丟失的標點符號的文本進行斷句并添加標點符號……聽起來很容易,對吧? 對于計算機來說,做到這一點肯定要復雜得多。

Distilbert-punctuator 是我能找到的唯一可以執行此任務的 Python 庫。 而且還超級準! 這是因為它使用了 BERT 的精簡變體。在結合 20,000 多篇新聞文章和 4,000 份 TED Talk 抄本后,對模型進行了進一步微調,以檢測句子邊界。 在插入句尾標點符號(例如句號)時,模型還會適當地將下一個起始字母大寫。

安裝

 

  1. pip install distilbert-punctuator 

這個庫需要相當多的依賴項,如果只是想測試,可以在 Google Colab 上試用。

使用樣例

 

  1. from dbpunctuator.inference import Inference, InferenceArguments 
  2. from dbpunctuator.utils import DEFAULT_ENGLISH_TAG_PUNCTUATOR_MAP 
  3. args = InferenceArguments( 
  4.         model_name_or_path="Qishuai/distilbert_punctuator_en"
  5.         tokenizer_name="Qishuai/distilbert_punctuator_en"
  6.         tag2punctuator=DEFAULT_ENGLISH_TAG_PUNCTUATOR_MAP 
  7.     ) 
  8. punctuator_model = Inference(inference_args=args,  
  9.                              verbose=False
  10. text = [ 
  11. ""
  12. however when I am elected I vow to protect our American workforce 
  13. unlike my opponent I have faith in our perseverance our sense of trust and our democratic principles will you support me 
  14. ""
  15.  
  16. print(punctuator_model.punctuation(text)[0]) 

 

結果

 

  1. ORIGINAL:  
  2. however when I am elected I vow to protect our American workforce 
  3. unlike my opponent I have faith in our perseverance our sense of trust and our democratic principles will you support me 
  4.  
  5. OUTPUT
  6. However, when I am elected, I vow to protect our American workforce. Unlike my opponent, I have faith in our perseverance, our sense of trust and our democratic principles. Will you support me? 

 

如果你只是希望文本數據在語法上更加正確和易于展示。 無論任務是修復凌亂的 Twitter 帖子還是聊天機器人消息,這個庫都適合你。

Textstat

Textstat 是一個易于使用的輕量級庫,可提供有關文本數據的各種指標,例如閱讀水平、閱讀時間和字數。

 

  1. pip install textstat 

使用樣例

 

  1. import textstat 
  2. text = ""
  3. Love this dress! it's sooo pretty. i happened to find it in a store, and i'm glad i did bc i never would have ordered it online bc it's petite.  
  4. ""
  5. # Flesch reading ease score 
  6. print(textstat.flesch_reading_ease(text)) 
  7.   # 90-100 | Very Easy 
  8.   # 80-89  | Easy 
  9.   # 70-79  | Fairly Easy 
  10.   # 60-69  | Standard 
  11.   # 50-59  | Fairly Difficult 
  12.   # 30-49  | Difficult 
  13.   # <30    | Very Confusing 
  14.  
  15. # Reading time (output in seconds) 
  16. # Assuming 70 milliseconds/character 
  17.  
  18. print(textstat.reading_time(text, ms_per_char=70))# Word count  
  19. print(textstat.lexicon_count(text, removepunct=True)) 

 

結果

 

  1. ORIGINAL: 
  2. Love this dress! it's sooo pretty. i happened to find it in a store, and i'm glad i did bc i never would have ordered it online bc it's petite. 
  3.  
  4. OUTPUTS: 
  5. 74.87 # reading score is considered 'Fairly Easy' 
  6. 7.98  # 7.98 seconds to read 
  7. 30    # 30 words 

 

這個庫還為這些指標增加了一個額外的分析層。 例如,一個八卦雜志上的名人新聞文章的數據集。使用textstat,你會發現閱讀速度更快更容易閱讀的文章更受歡迎,留存率更高。

Gibberish-Detector

這個低代碼庫的主要目的是檢測難以理解的單詞(或胡言亂語)。 它在大量英語單詞上訓練的模型。

 

  1. pip install gibberish-detector 

安裝完成后還需要自己訓練模型,但這非常簡單,只需一分鐘。 訓練步驟如下:

  1. 從這里下載名為 big.txt 的訓練語料庫
  2. 打開你的 CLI 并 cd 到 big.txt 所在的目錄
  3. 運行以下命令:gibberish-detector train .\big.txt > gibberish-detector.model

這將在當前目錄中創建一個名為 gibberish-detector.model 的文件。

使用樣例

 

  1. from gibberish_detector import detector 
  2. load the gibberish detection model 
  3. Detector = detector.create_from_model('.\gibberish-detector.model'
  4.  
  5. text1 = "xdnfklskasqd" 
  6. print(Detector.is_gibberish(text1)) 
  7.  
  8. text2 = "apples" 
  9. print(Detector.is_gibberish(text2)) 

 

結果

 

  1. True  # xdnfklskasqd (this is gibberish) 
  2. False # apples (this is not

 

它可以幫助我從數據集中刪除不良觀察結果。還可以實現對用戶輸入的錯誤處理。 例如,如果用戶在您的 Web 應用程序上輸入無意義的胡言亂語文本,這時可以返回一條錯誤消息。

NLPAug

最好的要留到最后。

首先,什么是數據增強?它是通過添加現有數據的稍微修改的副本來擴展訓練集大小的任何技術。當現有數據的多樣性有限或不平衡時,通常使用數據增強。對于計算機視覺問題,增強用于通過裁剪、旋轉和改變圖像的亮度來創建新樣本。對于數值數據,可以使用聚類技術創建合成實例。

但是如果我們正在處理文本數據呢?這就是 NLPAug 的用武之地。該庫可以通過替換或插入語義關聯的單詞來擴充文本。通過使用像 BERT 這樣的預訓練語言模型來進行數據的增強,這是一種強大的方法,因為它考慮了單詞的上下文。根據設置的參數,可以使用前 n 個相似詞來修改文本。

預訓練的詞嵌入,如 Word2Vec 和 GloVe,也可用于用同義詞替換詞。

 

  1. pip install nlpaug 

使用樣例

 

  1. import nlpaug.augmenter.word as naw 
  2.  
  3. # main parameters to adjust 
  4. ACTION = 'substitute' # or use 'insert' 
  5. TOP_K = 15 # randomly draw from top 15 suggested words 
  6. AUG_P = 0.40 # augment 40% of words within text 
  7.  
  8. aug_bert = naw.ContextualWordEmbsAug( 
  9.     model_path='bert-base-uncased',  
  10.     action=ACTION,  
  11.     top_k=TOP_K, 
  12.     aug_p=AUG_P 
  13.     ) 
  14.  
  15. text = ""
  16. Come into town with me today to buy food! 
  17. ""
  18. augmented_text = aug_bert.augment(text, n=3) # n: num. of outputs 
  19. print(augmented_text) 

 

結果

 

  1. ORIGINAL: 
  2. Come into town with me today to buy food! 
  3.  
  4. OUTPUTS: 
  5. • drove into denver with me today to purchase groceries! 
  6. • head off town with dad today to buy coffee! 
  7. • come up shop with mom today to buy lunch! 

 

假設你正在使用一個具有 15k 條正面評論和僅 4k 條負面評論的數據集上訓練監督分類模型。 嚴重不平衡的數據集會在訓練期間產生對多數類(正面評價)的模型偏差。

簡單地復制少數類的示例(負面評論)不會向模型添加任何新信息。 相反,利用 NLPAug 的高級文本增強功能來增加多樣性的少數類。 該技術已被證明可以提高 AUC 和 F1-Score。

結論

作為數據科學家、Kaggle 參與者或一般程序員,重要的是我們需要找到更多的工具來簡化我們的工作流程。這樣可以利用這些庫來解決問題,增強我們的數據集,并花更多時間思考解決方案而不是編寫代碼。

責任編輯:華軒 來源: 今日頭條
相關推薦

2022-08-16 10:32:08

Python數據科學

2021-01-08 10:38:40

前端開發代碼

2018-08-08 09:00:00

UNIXLinux命令

2021-01-12 15:17:40

命令Linux操作系統

2023-10-13 12:56:23

工作效率VS Code技巧

2015-11-16 10:03:10

效率

2020-05-07 10:25:13

工作效率遠程辦公CIO

2021-09-30 16:25:20

物聯網人工智能IoT

2018-08-10 10:22:19

編程語言Java高效工具

2018-07-11 10:39:11

程序員效率工具

2020-11-26 10:29:01

Redis

2009-05-15 16:36:34

EclipseIDE效率

2021-07-19 05:53:32

程序員工作效率效率

2019-08-30 14:25:03

Vim命令Linux

2009-05-14 11:43:56

2023-05-15 06:55:27

ChatGPTPrompt

2012-03-12 13:35:10

開發

2023-06-12 10:51:43

開發工作效率技巧

2022-02-10 15:22:05

Python開發數據科學

2018-08-29 20:00:11

Linux命令行命令行別名
點贊
收藏

51CTO技術棧公眾號

欧美日韩综合视频网址| 久久久免费观看视频| 男男视频在线观看网站| 另类天堂av| 国产精品影片在线观看| 中文字幕视频精品一区二区三区| 日韩av在线影院| 成人影欧美片| 色又黄又爽网站www久久| 成年在线播放小视频| 久久精品人人爽人人爽| 亚洲成人一区二区三区| 性色一区二区三区| 国产伦精品一区二区| 99久久.com| 亚洲一区二区在线| 中国成人一区| 成人免费看黄网站| 亚洲a在线视频| 亚洲在线观看视频| 久久99久久久欧美国产| 日本一级淫片演员| 久久人人88| 日本xxxx黄色| 亚洲天堂精品在线| 精精国产xxx在线视频app| 91午夜理伦私人影院| 亚洲美女自拍视频| 亚洲综合精品自拍| 高清av影院| 亚洲精品日韩一| 三年中国中文在线观看免费播放| 91香蕉视频在线| 久久国产精品视频在线观看| 悠悠色在线精品| 日本成本人片免费观看| 亚洲成人999| 秋霞久久久久久一区二区| 超碰在线97av| 久久野战av| 日韩精品一区二区三区在线播放| 日本在线观看免费视频| 国产成人av资源| 又黄又爽又色视频| 狠狠干狠狠久久| 亚洲一区二区久久久| 在线黄色国产电影| 快播亚洲色图| 亚洲激情av| 久久精品中文字幕一区二区三区| 国产欧美一区二区色老头 | 多野结衣av一区| 亚洲乱码一区二区| 91麻豆精品国产综合久久久| 日本人成精品视频在线| 午夜久久免费观看| 亚洲国产精品日韩| 久久先锋影音av鲁色资源网| 日本在线中文电影| 精品国产一二三| 我要色综合中文字幕| 91网站在线免费观看| 久久成人综合网| 激情视频免费网站| 欧美日韩一区二区三区高清| 亚洲国产福利| 国产精品久久久久久久久影视| 天堂在线一区二区| 狠狠操精品视频| 欧美日韩一级片在线观看| 欧美精品高清| 91久久精品久久国产性色也91| 国内精品伊人久久久久av影院| 裸体av在线| 亚洲精品国产欧美| 美女久久99| 51xx午夜影福利| 亚洲成av人片www| 欧美日韩激情电影| 国产成人免费电影| 日本一区二区综合亚洲| 蜜桃视频在线观看免费视频网站www| 久久综合五月天| 国产婷婷精品| jizzjizzji欧美| 国产亚洲a∨片在线观看| 欧美色网址大全| 99久久国产综合精品五月天喷水| 色欧美乱欧美15图片| 蜜桃精品一区二区三区| 欧美一区二区三区电影在线观看 | 97福利电影| 日韩精品极品毛片系列视频| 伊人精品综合| 日本黄色一区二区| 欧美激情三级| 国产成年人在线观看| 色综合咪咪久久| 亚洲精品**不卡在线播he| 国产在线视频在线| 欧美视频在线不卡| 国产精品成人自拍| 国产欧美久久久久| 欧美老肥妇做.爰bbww| 少妇一区二区视频| 久久久久久香蕉| 亚洲网址你懂得| 日本不卡一区二区三区| 福利视频在线导航| 成人激情黄色网| 亚洲男同性恋视频| 免费看日产一区二区三区| 国内精品国产三级国产99| 欧美一区日本一区韩国一区| 欧美激情视频一区二区三区在线播放 | 少妇视频一区| 久久精品成人一区二区三区蜜臀| 亚洲福利国产精品| 日韩成人动漫在线观看| 久久久久久久少妇| 精品久久国产精品| 国产激情视频一区二区在线观看 | 狠狠久久伊人| 久久国产乱子伦免费精品| 亚洲乱码av中文一区二区| av电影一区| 男人的天堂亚洲一区| a级在线观看| 青草成人免费视频| 精品动漫一区二区三区| 一区二区毛片| 国产精品99久久久久久董美香 | 亚洲欧美在线免费| 亚洲精品看片| 欧洲视频在线免费观看| 国产女精品视频网站免费| 亚洲女人的天堂| 日韩超碰人人爽人人做人人添| 日韩人妻精品无码一区二区三区| 亚洲欧美成人一区二区在线电影| 精品中文字幕一区二区| 91美女精品| 麻豆视频传媒入口| 亚洲欧美中文字幕在线一区| 成人性生交大合| 欧美日韩中出| 99re热在线观看| 国产精品成人国产乱一区| 亚洲在线观看免费| 99久久夜色精品国产亚洲1000部| 你懂的在线看| 欧美极品jizzhd欧美| 亚洲精品国产综合区久久久久久久 | 69国产精品| 国产精品美女主播在线观看纯欲| 亚洲一区二区黄色| 欧美私人啪啪vps| 精精国产xxxx视频在线中文版| 三级网在线观看| 欧美成人激情视频免费观看| 亚洲免费观看在线视频| 国产精品99免费看| а√天堂中文在线资源8| 日韩a∨精品日韩在线观看| 久久噜噜噜精品国产亚洲综合 | 欧美久久影院| 丁香花在线电影| av免费观看大全| 国产成人精品一区二区在线| 精品视频资源站| caoporn国产精品| 毛片av在线播放| 日韩精品在线观看网站| 久久精子c满五个校花| 91久久夜色精品国产按摩| 最新黄网在线观看| 欧美精品一区二区三区免费播放| 国产欧美久久久久久| 亚洲黄色有码视频| 国产精品福利av | yellow视频在线观看一区二区| 日韩福利视频在线观看| 中文成人av在线| 夜夜嗨av一区二区三区网站四季av| 欧美成人影院| 女人黄色片免费| 神马影院午夜我不卡影院| 久久777国产线看观看精品| 色噜噜久久综合| 丁香六月综合激情| 色琪琪久久se色| 成人美女黄网站| 中文在线√天堂| 国产精品视频网站在线观看| 国产中文字幕日韩| 国产亚洲在线播放| 色香蕉久久蜜桃| 久久精品一区二区三区不卡| 久久精选视频| 99久久99热这里只有精品|