国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

我爬取豆瓣影評,告訴你《復(fù)仇者聯(lián)盟3》在講什么?(內(nèi)附源碼)

開發(fā) 后端
《復(fù)仇者聯(lián)盟3:無限戰(zhàn)爭》于 2018 年 5 月 11 日在中國大陸上映。截止 5 月 16 日,它累計(jì)票房達(dá)到 15.25 億。這票房紀(jì)錄已經(jīng)超過了漫威系列單部電影的票房紀(jì)錄。本文通過 Python 制作網(wǎng)絡(luò)爬蟲,爬取豆瓣電影評論,并分析然后制作豆瓣影評的云圖。

《復(fù)仇者聯(lián)盟3:***戰(zhàn)爭》于 2018 年 5 月 11 日在中國大陸上映。截止 5 月 16 日,它累計(jì)票房達(dá)到 15.25 億。這票房紀(jì)錄已經(jīng)超過了漫威系列單部電影的票房紀(jì)錄。不得不說,漫威電影已經(jīng)成為一種文化潮流。

先貼海報(bào)欣賞下:

復(fù)聯(lián) 3 作為漫威 10 年一劍的收官之作。漫威確認(rèn)下了很多功夫, 給我們奉獻(xiàn)一部精彩絕倫的電影。自己也利用周末時(shí)間去電影院觀看。看完之后,個(gè)人覺得無論在打斗特效方面還是故事情節(jié),都是給人愉悅的享受。同時(shí),電影還保持以往幽默搞笑的風(fēng)格,經(jīng)常能把觀眾逗得捧腹大笑。如果還沒有去觀看的朋友,可以去電影院看看,確實(shí)值得一看。

本文通過 Python 制作網(wǎng)絡(luò)爬蟲,爬取豆瓣電影評論,并分析然后制作豆瓣影評的云圖。

1 分析

先通過影評網(wǎng)頁確定爬取的內(nèi)容。我要爬取的是用戶名,是否看過,五星評論值,評論時(shí)間,有用數(shù)以及評論內(nèi)容。

 

然后確定每頁評論的 url 結(jié)構(gòu)。

第二頁 url 地址:

第三頁 url 地址:

***發(fā)現(xiàn)其中的規(guī)律:除了首頁,后面的每頁 url 地址中只有 start= 的值逐頁遞增,其他都是不變的。

2 數(shù)據(jù)爬取

本文爬取數(shù)據(jù),采用的主要是 requests 庫和 lxml 庫中 Xpath。豆瓣網(wǎng)站雖然對網(wǎng)絡(luò)爬蟲算是很友好,但是還是有反爬蟲機(jī)制。如果你沒有設(shè)置延遲,一下子發(fā)起大量請求,會被封 IP 的。另外,如果沒有登錄豆瓣,只能訪問前 10 頁的影片。因此,發(fā)起爬取數(shù)據(jù)的 HTTP 請求要帶上自己賬號的 cookie。搞到 cookie 也不是難事,可以通過瀏覽器登錄豆瓣,然后在開發(fā)者模式中獲取。

我想從影評首頁開始爬取,爬取入口是:https://movie.douban.com/subject/24773958/comments?status=P,然后依次獲取頁面中下一頁的 url 地址以及需要爬取的內(nèi)容,接著繼續(xù)訪問下一個(gè)頁面的地址。 

  1. import jieba  
  2. import requests  
  3. import pandas as pd  
  4. import time  
  5. import random  
  6. from lxml import etree  
  7.  
  8. def start_spider():  
  9.     base_url = 'https://movie.douban.com/subject/24773958/comments'  
  10.     start_url = base_url + '?start=0'   
  11.  
  12.     number = 1  
  13.     html = request_get(start_url)   
  14.  
  15.     while html.status_code == 200:  
  16.         # 獲取下一頁的 url  
  17.         selector = etree.HTML(html.text)  
  18.         nextpage = selector.xpath("//div[@id='paginator']/a[@class='next']/@href" 
  19.         nextpage = nextpage[0]  
  20.         next_url = base_url + nextpage  
  21.         # 獲取評論 
  22.         comments = selector.xpath("//div[@class='comment']" 
  23.         marvelthree = []  
  24.         for each in comments:  
  25.             marvelthree.append(get_comments(each))  
  26.  
  27.         data = pd.DataFrame(marvelthree)  
  28.         # 寫入csv文件,'a+'是追加模式  
  29.         try:  
  30.             if number == 1:  
  31.                 csv_headers = ['用戶''是否看過''五星評分''評論時(shí)間''有用數(shù)''評論內(nèi)容' 
  32.                 data.to_csv('./Marvel3_yingpping.csv', header=csv_headers, index=False, mode='a+', encoding='utf-8' 
  33.             else 
  34.                 data.to_csv('./Marvel3_yingpping.csv', header=Falseindex=False, mode='a+', encoding='utf-8' 
  35.         except UnicodeEncodeError:  
  36.             print("編碼錯(cuò)誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)" 
  37.  
  38.         data = []  
  39.         html = request_get(next_url) 

我在請求頭中增加隨機(jī)變化的 User-agent, 增加 cookie。***增加請求的隨機(jī)等待時(shí)間,防止請求過猛被封 IP。 

  1. def request_get(url):  
  2.     '' 
  3.     使用 Session 能夠跨請求保持某些參數(shù)。  
  4.     它也會在同一個(gè) Session 實(shí)例發(fā)出的所有請求之間保持 cookie  
  5.     '' 
  6.     timeout = 3  
  7.     UserAgent_List = [  
  8.         "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36" 
  9.         "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36" 
  10.         "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36" 
  11.         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36" 
  12.         "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36" 
  13.         "Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36" 
  14.         "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36" 
  15.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36" 
  16.         "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36" 
  17.         "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36" 
  18.         "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36" 
  19.         "Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36" 
  20.         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36" 
  21.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36" 
  22.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36" 
  23.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36" 
  24.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36" 
  25.         "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36" 
  26.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36" 
  27.     ]  
  28.  
  29.     header = {  
  30.         'User-agent': random.choice(UserAgent_List),  
  31.         'Host''movie.douban.com' 
  32.         'Referer''https://movie.douban.com/subject/24773958/?from=showing' 
  33.     }  
  34.  
  35.     session = requests.Session()  
  36.  
  37.     cookie = {  
  38.         'cookie'"你的 cookie 值" 
  39.     }  
  40.  
  41.     time.sleep(random.randint(5, 15))    
  42.     response = requests.get(url, headers=header, cookies=cookie_nologin, timeout = 3)  
  43.     if response.status_code != 200:  
  44.         print(response.status_code)  
  45.     return response 

***一步就是數(shù)據(jù)獲取:

 

  1. def get_comments(eachComment):  
  2.     commentlist = []  
  3.     user = eachComment.xpath("./h3/span[@class='comment-info']/a/text()")[0]  # 用戶  
  4.     watched = eachComment.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0]  # 是否看過  
  5.     rating = eachComment.xpath("./h3/span[@class='comment-info']/span[2]/@title")  # 五星評分  
  6.     if len(rating) > 0:  
  7.         rating = rating[0]  
  8.  
  9.     comment_time = eachComment.xpath("./h3/span[@class='comment-info']/span[3]/@title")  # 評論時(shí)間  
  10.     if len(comment_time) > 0:  
  11.         comment_time = comment_time[0]  
  12.     else 
  13.         # 有些評論是沒有五星評分, 需賦空值  
  14.         comment_time = rating  
  15.         rating = ''  
  16.  
  17.     votes = eachComment.xpath("./h3/span[@class='comment-vote']/span/text()")[0]  # "有用"數(shù)  
  18.     content = eachComment.xpath("./p/text()")[0]  # 評論內(nèi)容  
  19.  
  20.  
  21.     commentlist.append(user 
  22.     commentlist.append(watched)  
  23.     commentlist.append(rating)  
  24.     commentlist.append(comment_time)  
  25.     commentlist.append(votes)  
  26.     commentlist.append(content.strip())  
  27.     # print(list)  
  28.     return commentlist  

3 制作云圖

因?yàn)榕廊〕鰜碓u論數(shù)據(jù)都是一大串字符串,所以需要對每個(gè)句子進(jìn)行分詞,然后統(tǒng)計(jì)每個(gè)詞語出現(xiàn)的評論。我采用 jieba 庫來進(jìn)行分詞,制作云圖,我則是將分詞后的數(shù)據(jù)丟給網(wǎng)站 worditout 處理。 

  1. def split_word():  
  2.     with codecs.open('Marvel3_yingpping.csv''r''utf-8'as csvfile:  
  3.         reader = csv.reader(csvfile)  
  4.         content_list = []  
  5.         for row in reader:  
  6.             try:  
  7.                 content_list.append(row[5])  
  8.             except IndexError:  
  9.                 pass  
  10.  
  11.         content = ''.join(content_list)  
  12.  
  13.         seg_list = jieba.cut(content, cut_all=False 
  14.         result = '\n'.join(seg_list)  
  15.         print(result) 

***制作出來的云圖效果是:

"滅霸"詞語出現(xiàn)頻率***,其實(shí)這一點(diǎn)不意外。因?yàn)閺?fù)聯(lián) 3 整部電影的故事情節(jié)大概是,滅霸在宇宙各個(gè)星球上收集 6 顆***寶石,然后每個(gè)超級英雄為了防止滅霸毀滅整個(gè)宇宙,組隊(duì)來阻止滅霸。 

 

責(zé)任編輯:龐桂玉 來源: Python中文社區(qū)
相關(guān)推薦

2015-05-27 17:26:08

2012-05-16 10:33:39

2018-07-25 13:47:51

彭于晏邪不壓正Python

2019-05-16 10:34:17

浪潮商用機(jī)器PowerIBM

2019-04-28 06:27:25

復(fù)仇者聯(lián)盟數(shù)據(jù)分析可視化

2025-06-19 09:43:11

2023-12-06 13:45:00

AI模型

2022-04-29 08:00:36

web3區(qū)塊鏈比特幣

2017-08-21 10:05:57

Python影評 爬蟲

2019-04-12 09:24:46

Spring Clou服務(wù)注冊

2018-11-28 13:16:39

火鍋數(shù)據(jù)爬蟲

2024-04-09 09:08:09

Kafka消息架構(gòu)

2019-04-24 09:25:51

安全事故復(fù)聯(lián)

2018-12-20 11:50:46

Python房租分析

2013-08-13 15:21:00

華為移動開發(fā)者聯(lián)盟移動團(tuán)隊(duì)移動互聯(lián)網(wǎng)市場

2021-08-16 17:36:16

黑客數(shù)據(jù)泄露網(wǎng)絡(luò)安全

2023-12-08 07:38:13

GptsOpenAIChatGPT

2012-07-03 16:56:12

Hadoop

2020-12-30 09:18:46

JVM內(nèi)部信息

2017-09-17 10:05:20

Python景點(diǎn)國慶
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美三级三级三级爽爽爽| 亚洲欧美一区二区精品久久久 | 91视频综合| 成人一级视频在线观看| 亚洲性线免费观看视频成熟| 日本中文字幕网址| 国产91一区| 青青草视频免费在线观看| 丁香另类激情小说| 色撸撸在线观看| 六月丁香婷婷久久| 日韩成人在线资源| 久久国产精品毛片| 欧美日韩精品免费在线观看视频| 国产精品观看| 韩日午夜在线资源一区二区| 亚洲五月综合| 国产精品久久国产三级国电话系列| 午夜片欧美伦| 91精品综合久久久久久五月天| 深夜福利久久| 91精品久久久久久久久久| 日韩动漫在线观看| 好看不卡的中文字幕| 美女福利视频一区| 蜜桃成人在线视频| 精品三级在线看| 岛国成人毛片| 欧美变态凌虐bdsm| 污视频在线免费观看一区二区三区| 欧美高清一区| 久久99国产精品| 日韩高清中文字幕一区| 一区二区三区四区欧美| 国产精品一二三四| 蜜臀av免费观看| 午夜视频在线观看一区| 秋霞成人影院| 一区二区成人精品| 欧美人与动xxxxz0oz| 91精品国自产在线观看 | 成人免费在线视频播放| 日本一区二区视频在线| 亚洲国产日韩一区| 二区三区中文字幕| 99久久久精品| 日本精品一区| 一本久久知道综合久久| 91久色国产| 青青草原综合久久大伊人精品| 综合久久国产| 国产成人手机高清在线观看网站| 国产美女精品视频| 日韩视频二区| 日韩欧美不卡在线| 亚洲另类在线一区| 毛片免费不卡| xvideos亚洲人网站| 理论片一区二区在线| 天涯成人国产亚洲精品一区av| 国产精品一区二区日韩| 亚洲一区二区三区久久 | 美女被啪啪一区二区| 国产成人一区在线| 亚洲美女在线免费观看| 精品日韩99亚洲| www.-级毛片线天内射视视| 国产精品77777| 在线视频资源站| 亚洲女在线观看| 欧美色女视频| 男人添女人下部视频免费| 亚洲男人天堂av| 久久男人av资源站| 国产精品免费小视频| 懂色av中文字幕一区二区三区 | 999国内精品视频在线| 国产美女久久久久| 亚洲最新合集| 九九久久精品一区| 新67194成人永久网站| 国产色视频网站| 亚洲色图偷窥自拍| 综合亚洲视频| 91.·福利| 最近2019中文字幕mv免费看| 亚洲久久成人| 欧美最顶级a∨艳星| 欧美猛交免费看| 麻豆精品视频在线观看免费| 在线观看免费毛片| 欧美精品制服第一页| 久久成人免费日本黄色| 日本福利片高清在线观看| 国内揄拍国内精品少妇国语| 国产麻豆精品在线| av毛片在线| 成人xxxxx色| 亚洲国产裸拍裸体视频在线观看乱了| 国产精品久久久久久吹潮| 欧美在线播放一区| 在线国产电影不卡| 91日韩免费| av网站免费在线| 欧美大秀在线观看| 成人av在线播放网站| 97蜜桃久久| 日本一区二区不卡高清更新| 色狠狠桃花综合| 欧美日一区二区| 成年在线播放小视频| 欧美日韩高清区| 99re热视频这里只精品| 精精国产xxxx视频在线播放| 国精产品一区二区| 色婷婷久久久综合中文字幕 | av资源种子在线观看| 国产成人一区二区三区电影| 欧美国产欧美亚州国产日韩mv天天看完整| av蜜臀在线| 亚洲欧美日韩在线综合 | 亚洲伦理久久| 亚洲另类激情图| 国产在线观看免费一区| 亚洲精品va| www.综合网.com| 日韩一区二区高清视频| 亚洲精品在线免费播放| 日本欧美在线观看| 18在线观看的| 欧美日韩一区二区在线免费观看 | 国产精品久久久久久久久免费桃花| 中文字幕中文字幕一区| 国产资源在线观看入口av| 日本亚洲导航| 精品国精品国产| 欧美综合国产| 国产激情视频在线看| 中国一级黄色录像| 最近中文字幕日韩精品| 久久久精品免费免费| 天堂精品久久久久| 国产免费黄色av| 久久久久久中文| 亚洲人成网站在线| 日韩久久综合| 97在线观看免费观看高清| 日本亚洲欧洲精品| 亚洲男人7777| 国产日产欧美一区二区视频| 神马久久影院| 国产黄色片在线播放| 亚洲电影免费| 久久久精品在线观看| 一区二区三区四区激情| 欧美.日韩.国产.一区.二区| 成人国产免费电影| 国内少妇毛片视频| 欧美在线不卡区| 色噜噜狠狠成人中文综合| 蜜臀av国产精品久久久久| 一级欧美视频| 伊人永久在线| 亚洲精品无人区| 欧美国产亚洲视频| 国产精品网站在线观看| 成人精品高清在线| 欧美国产激情二区三区| 日本一区二区高清| 国产麻豆9l精品三级站| 久久精品日产第一区二区| 日韩成人午夜| 日韩中出av| 日韩大片在线免费观看| 成人h动漫免费观看网站| 日本一级淫片演员| 日本一区二区三级电影在线观看 | 在线观看亚洲一区| 亚洲欧美日韩国产综合精品二区| 99国产精品久久久久久久成人热| 国产剧情av在线播放| 久久精品国产精品青草色艺| 国产精品2018| 国产精品一香蕉国产线看观看| 欧美华人在线视频| 国产91精品久久久久久久| 国产超级va在线视频| 毛片av在线| 一区二区视频免费完整版观看| 小视频免费在线观看| 最近在线中文字幕| 国产精品对白久久久久粗| 日本成人精品| 88国产精品视频一区二区三区| 日韩电影一区| 国产成都精品91一区二区三| 91麻豆国产香蕉久久精品| 国产欧美精品区一区二区三区| 成人激情文学综合网| 成人午夜视频网站|