国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

使用 BerTopic 在 Python 中進行主題建模

譯文
開發 開發工具
主題建模是一種無監督的機器學習技術,它可以自動識別文檔(文本數據)中的不同主題。

【51CTO.com快譯】通過主題建模,你可以收集非結構化數據集,分析文檔,并獲得相關和所需的信息,這些信息能幫你做出更好的決策。 

??

執行主題建模有不同的技術(如LDA),但是在本NLP教程中,你將學習如何使用Maarten Grootendorst開發的BerTopic技術。

什么是 BerTopic?

BerTopic是一種主題建模技術,它使用轉換器(BERT嵌入)和基于類的TF-IDF來創建密集集群。它還允許您輕松地解釋和可視化生成的主題。

BerTopic算法包含三個階段:

1.嵌入文本數據(文檔):此步驟中,算法使用BERT提取文檔嵌入,也可以使用其他任何嵌入技術。

默認情況下,它使用下面的句子轉換器

  • “ paraphrase-MiniLM-L6-v2” - 這是一個基于英語 BERT 的模型,專門針對語義相似性任務進行訓練。
  • “ paraphrase-multilingual-MiniLM-L12-v2 ” - 這與第一個類似,一個主要區別是 xlm 模型適用于 50 多種語言。

2.Cluster文檔:使用UMAP降低嵌入的維數,使用HDBSCAN技術聚類減少嵌入并創建語義相似文檔的聚類。

3.創建主題表示:利用基于類的TF-IDF進行主題提取和精簡,提高最大邊緣關聯詞的一致性。

??

如何安裝 BerTopic

可以通過 pip 安裝軟件包: 

pip install bertopic

如果你對可視化選項感興趣,你需要按照如下方式安裝它們。 

pip install bertopic[visualization]

BerTopic支持不同的轉換器和語言后端,你可以使用它們來創建模型。你可以根據下面可用的選項安裝一個。

  • pip install bertopic[天賦]
  • pip install bertopic[gensim]
  • pip install bertopic[spacy]
  • pip install bertopic[使用]

我們將使用以下庫來幫助我們加載數據并從BerTopic創建模型。 

#import packages

import pandas as pd
import numpy as np
from bertopic import BERTopic

步驟1:加載數據

在本NLP教程中,我們將使用2020年東京奧運會推文,目標是創建一個模型,該模型可以根據推文的主題自動分類。 

#load data
import pandas as pd

df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/data/tokyo_2020_tweets.csv", engine='python')

# select only 6000 tweets
dfdf = df[0:6000]

注:出于計算原因,我們只選擇了6000條推文。

步驟2:創建模型

要使用BERTopic創建模型,需要將推文作為列表加載,然后將其傳遞給fit_transform方法。這個方法將做以下工作:

  • 在推文集合上擬合模型;
  • 生成話題;
  • 返回帶有主題的推文。
# create model

model = BERTopic(verbose=True)

#convert to list
docs = df.text.to_list()

topics, probabilities = model.fit_transform(docs)

 ??

步驟3:選擇高級主題

訓練模型后,可以按降序訪問主題的大小。 

model.get_topic_freq().head(11)

 ??

注:Topic -1是最大的,它指的是沒有分配給生成的任何主題的離群推文。在本例中,我們將忽略Topic -1。

步驟4:選擇一個主題

你可以選擇一個特定的主題,并得到該主題的前n個單詞和他們的c-TF-IDF分數。 

model.get_topic(6)

 ??

對于這個選定的話題,常用詞是瑞典,目標,羅爾夫,瑞典人,目標,足球。很明顯,這個話題的重點是“瑞典隊的足球”。

步驟5:主題建模可視化

BerTopic允許您以非常類似于LDAvis的方式可視化生成的主題。這會讓你對主題的質量有更多的了解。在本文中,我們將介紹三種可視化主題的方法。

可視化的話題

visualize_topics方法可以幫助您可視化生成的主題及其大小和相應的單詞。視覺化的靈感來自于LDavis。 

model.visualize_topics()

 ??

可視化術語

visualize_barchart方法將通過創建c-TF-IDF分數的條形圖來顯示選定的幾個主題術語。然后,您可以比較彼此的主題表示,并從生成的主題中獲得更多的見解。 

model.visualize_barchart()

 ??

上面的圖表中,你可以看到話題4的熱門詞是proud, thank, cheer4india, cheer和congrats。

可視化主題相似性

你還可以可視化某些主題之間的相似程度。要可視化熱圖,只需調用。 

model.visualize_heatmap()

??

在上圖中,你可以看到topic 93與topic 102相似,相似度為0.933。

主題減少

有時您可能會生成過多或過少的主題,BerTopic為您提供了一種選擇,以不同的方式控制這種行為。

(a)你可以通過設置參數nr_topics來設置你想要的主題數量。BerTopic將找到類似的主題并合并它們。 

model = BERTopic(nr_topics=20)

在上面的代碼中,將要生成的主題的數量是20。

(b)另一種選擇是自動減少專題的數目。要使用這個選項,你需要在訓練模型之前將"nr_topics"設置為"auto"。 

model = BERTopic(nr_topics="auto")

(c)最后一種選擇是減少模型訓練后的主題數量。這是一個很好的選擇,如果重新培訓模型將花費許多小時。 

new_topics, new_probs = model.reduce_topics(docs, topics, probabilities, nr_topics=15)

在上面的示例中,在訓練模型之后,您將主題的數量減少到15個。

步驟6:做出預測

要預測新文檔的主題,需要在轉換方法上添加一個(或多個)新實例。 

topics, probs = model.transform(new_docs)

步驟7:保存模型

你以使用save方法保存訓練過的模型。

model.save("my_topics_model")

步驟8:加載模型

你可以使用load方法來加載模型。 

BerTopic_model = BERTopic.load("my_topics_model")

最后

在創建模型時,BerTopic提供了許多特性。例如,如果您有一個特定語言的數據集(默認情況下,它支持英語模型),您可以通過在配置模型時設置語言參數來選擇語言。 

model = BERTopic(language="German")

注意:請選擇其嵌入模型存在的語言。

如果你的文檔中混合了多種語言,你可以設置language="multilingual"以支持超過50種語言。 

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】


責任編輯:黃顯東 來源: hackernoon
相關推薦

2019-04-18 09:15:05

DaskPython計算

2020-03-07 18:00:17

logzeroPython日志記錄

2023-08-02 08:02:30

Redis數據原生方法

2023-10-18 18:31:04

SQL查詢數據

2020-06-30 08:23:00

JavaScript開發技術

2024-05-06 13:34:28

WireGoogleGo

2009-06-22 10:29:11

集成測試Spring

2011-08-01 10:41:59

Xcode 條件編譯

2009-12-28 13:59:12

ADO調用存儲過程

2009-03-03 09:00:57

Silverlight數據驗證UI控件

2021-03-24 09:30:02

Jupyter not單元測試代碼

2020-08-11 13:00:34

GNU bcLinuxShell

2023-06-08 14:10:00

VSCodePython代碼

2016-08-22 11:46:53

GitLinux開源

2009-12-11 09:43:43

靜態路由配置

2011-11-30 15:18:06

JavaJBossJ2EE

2012-04-09 13:39:37

ibmdw

2010-03-30 18:48:24

Oracle 學習

2025-02-10 10:29:32

2021-04-16 20:46:21

PythonXGBoost 特征
點贊
收藏

51CTO技術棧公眾號

极品一区美女高清| 媚黑女一区二区| 欧美性色黄大片| 3344永久| 99re热视频精品| 一区二区三区四区视频在线观看 | 97免费在线视频| 99热播精品免费| 精品久久国产97色综合| 成人动漫在线免费观看| 亚洲.国产.中文慕字在线| 精品日韩久久久| 另类的小说在线视频另类成人小视频在线 | 国产视色精品亚洲一区二区| 国产精品久久久久久| 热99久久精品| 欧美黑白配在线| 色综合久久久久久中文网| 日本黄色成人| 久久精品国产成人精品| av成人亚洲| 久久久精品视频成人| 高清不卡一区| 久久久久久久久国产| 国产精品极品在线观看| 青青草成人在线| 久久av免费看| 成人精品网站在线观看| 天天综合一区| 国产精品国产三级国产专区53| 在线观看不卡| 日韩精品国内| 久久精品国产免费看久久精品| 手机福利在线视频| 国产精品99久久久久久久女警| 51xx午夜影福利| 91在线观看一区二区| 天天爽人人爽夜夜爽| 最新热久久免费视频| 在线国产视频观看| 91精品国产综合久久小美女| 欧美v亚洲v| 在线视频中文亚洲| 中文字幕一区二区三区日韩精品| 欧美亚洲第一区| 国产精品伦理久久久久久| 91在线国产电影| 久久久噜噜噜久久狠狠50岁| 99视频精品全部免费看| 国产夜色精品一区二区av| 白虎精品一区| 欧美日韩日日摸| 香蕉伊大人中文在线观看| 国语自产精品视频在线看一大j8 | 国产一区二区三区久久| 992tv成人免费观看| 久久久国产一区二区三区四区小说| 国产经典第一页| 欧美日韩在线播放| 亚洲欧洲自拍| 日本免费一区二区三区视频观看| 午夜久久影院| 看一级黄色录像| 国产精品久久久久久一区二区三区 | 亚洲乱码一区av黑人高潮| 视频一区在线| 粉嫩精品一区二区三区在线观看 | 国产精品国产精品国产专区不蜜| 污视频在线观看免费| 亚洲精品不卡在线| 校园春色另类视频| 日本在线观看一区| 成人免费在线视频| 欧美aaaaaaa| 7m精品福利视频导航| 日韩国产欧美视频| 成人免费xxxxx在线视频| 在线观看日韩高清av| 欧洲美女精品免费观看视频| 国产a一区二区| 国产午夜精品一区二区| 在线视频自拍| 欧美激情综合色| 久久精品伊人| 成人a视频在线| 色噜噜亚洲精品中文字幕| 欧美fxxxxxx另类| 成人亚洲视频在线观看| 欧美性大战久久久久久久蜜臀| 国产精品一区二区精品| 裸模一区二区三区免费| 亚洲美女淫视频| 欧美成人家庭影院| 欧美国产综合视频| 亚洲一二三区不卡| 精品国产欧美| http;//www.99re视频| 日本一区二区三区国色天香| 91福利在线尤物| 成人三级视频在线观看一区二区| 国产嫩草影院久久久久| 成人三级高清视频在线看| 亚洲欧美另类人妖| 国产精品996| jk破处视频在线| 国产精品久久久久久久久久久久久久 | 亚洲自拍偷拍色图| av爱爱亚洲一区| h视频在线免费观看| 国产精品日日摸夜夜添夜夜av| 国产91丝袜在线播放九色| 日本精品在线| 欧美最近摘花xxxx摘花| caoporen国产精品视频| 色yeye免费人成网站在线观看| 国产精品男女猛烈高潮激情| 欧美激情一二三区| 免费精品一区| 欧美a v在线播放| 亚洲精品日韩久久久| 蜜臀久久久99精品久久久久久| 成人在线免费公开观看视频| 成人福利网站在线观看| 亚洲色图视频免费播放| www.久久东京| 蜜臀av午夜一区二区三区| 一区二区在线视频| 成人av网址在线| 成人黄色视屏网站| 在线一区日本视频| 亚洲第一级黄色片| 日韩国产欧美在线视频| 亚洲按摩av| 亚洲国产另类久久久精品极度| 欧美日本免费一区二区三区| 亚洲在线电影| 在线观看男女av免费网址| 亚洲一区高清| 日韩av在线网| 成人黄色一级视频| 日韩在线精品强乱中文字幕| 欧美性猛交久久久乱大交小说 | 风间由美性色一区二区三区 | 日韩女同互慰一区二区| 日韩精品一二三区| 欧美日韩国产网站| 天天色综合天天色| 国产精品亚洲综合天堂夜夜| 色悠悠亚洲一区二区| 亚洲欧美日本日韩| videos性欧美另类高清| 99999精品视频| 欧美性受xxx| 一区二区免费在线| 午夜久久久久| 成人av影院在线观看| www.av毛片| 欧美最猛黑人xxxx黑人猛叫黄| 香蕉乱码成人久久天堂爱免费| 欧美日一区二区三区在线观看国产免| 午夜免费视频在线国产| 久久久无码中文字幕久...| 久久69精品久久久久久久电影好 | 亚洲欧美精品suv| 久久久久国产精品人| 亚州国产精品| 性欧美xxxx大乳国产app| 91精品成人| 最近中文字幕一区二区三区| 麻豆精品久久久| 国内精品久久久久久久影视麻豆 | 亚洲444eee在线观看| 日本高清中文字幕二区在线| 精品欧美一区二区三区久久久 | 韩国成人精品a∨在线观看| 在线日韩成人| 日本福利片高清在线观看| 欧美综合激情| 欧美富婆性猛交| 欧美色欧美亚洲高清在线视频| 在线观看一区视频| 成人久久网站| 亚洲人成小说| 最新中文字幕久久| 国产99视频精品免视看7| 日韩欧美国产1| 亚洲欧洲精品一区二区三区| 亚洲影院免费| 91麻豆精品国产91久久久久推荐资源| 国产视频二区在线观看| 自拍日韩亚洲一区在线| 91久久在线播放| 色噜噜狠狠色综合网图区| 午夜欧美大尺度福利影院在线看| 免费成人美女在线观看| 色综合蜜月久久综合网| 99九九久久| 午夜激情在线观看| 成人网18入口| 激情五月六月婷婷|