国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Python爬蟲實戰:采集淘寶商品信息并導入EXCEL表格

開發 后端
本文簡單使用python的requests庫及re正則表達式對淘寶的商品信息(商品名稱,商品價格,生產地區,以及銷售額)進行了爬取,并最后用xlsxwriter庫將信息放入Excel表格。

[[350733]]

文章目錄

前言

  • 一、解析淘寶URL組成
  • 二、查看網頁源碼并用re庫提取信息
  • 1.查看源碼2.re庫提取信息
  • 三:函數填寫
  • 四:主函數填寫
  • 五:完整代碼

前言

本文簡單使用python的requests庫及re正則表達式對淘寶的商品信息(商品名稱,商品價格,生產地區,以及銷售額)進行了爬取,并最后用xlsxwriter庫將信息放入Excel表格。最后的效果圖如下:

提示:以下是本篇文章正文內容

一、解析淘寶URL組成

1.我們的第一個需求就是要輸入商品名字返回對應的信息

所以我們這里隨便選一個商品來觀察它的URL,這里我們選擇的是書包,打開網頁,可知他的URL為:

https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

 

可能單單從這個url里我們看不出什么,但是我們可以從圖中看出一些端倪

我們發現q后面的參數就是我們要獲取的物品的名字

2.我們第二個需求就是根據輸入的數字來爬取商品的頁碼

所以我們來觀察一下后面幾頁URL的組成

由此我們可以得出分頁的依據是最后s的值=(44(頁數-1))

二、查看網頁源碼并用re庫提取信息

1.查看源碼

這里的幾個信息都是我們所需要的

2.re庫提取信息

  1. a = re.findall(r'"raw_title":"(.*?)"', html) 
  2.    b = re.findall(r'"view_price":"(.*?)"', html) 
  3.    c = re.findall(r'"item_loc":"(.*?)"', html) 
  4.    d = re.findall(r'"view_sales":"(.*?)"', html) 

三:函數填寫

這里我寫了三個函數,第一個函數來獲取html網頁,代碼如下:

  1. def GetHtml(url): 
  2.     r = requests.get(url,headers =headers) 
  3.     r.raise_for_status() 
  4.     r.encoding = r.apparent_encoding 
  5.     return r 

第二個用于獲取網頁的URL代碼如下:

  1. def Geturls(q, x): 
  2.     url = "https://s.taobao.com/search?q=" + q + "&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm" \ 
  3.                                                  "=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306 " 
  4.     urls = [] 
  5.     urls.append(url) 
  6.     if x == 1: 
  7.         return urls 
  8.     for i in range(1, x ): 
  9.         url = "https://s.taobao.com/search?q="+ q + "&commend=all&ssid=s5-e&search_type=item" \ 
  10.               "&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306" \ 
  11.               "&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=" + str( 
  12.             i * 44) 
  13.         urls.append(url) 
  14.     return urls 

第三個用于獲取我們需要的商品信息并寫入Excel表格代碼如下:

  1. def GetxxintoExcel(html): 
  2.     global count#定義一個全局變量count用于后面excel表的填寫 
  3.     a = re.findall(r'"raw_title":"(.*?)"', html)#(.*?)匹配任意字符 
  4.     b = re.findall(r'"view_price":"(.*?)"', html) 
  5.     c = re.findall(r'"item_loc":"(.*?)"', html) 
  6.     d = re.findall(r'"view_sales":"(.*?)"', html) 
  7.     x = [] 
  8.     for i in range(len(a)): 
  9.         try: 
  10.             x.append((a[i],b[i],c[i],d[i]))#把獲取的信息放入新的列表中 
  11.         except IndexError: 
  12.             break 
  13.     i = 0 
  14.     for i in range(len(x)): 
  15.         worksheet.write(count + i + 1, 0, x[i][0])#worksheet.write方法用于寫入數據,第一個數字是行位置,第二個數字是列,第三個是寫入的數據信息。 
  16.         worksheet.write(count + i + 1, 1, x[i][1]) 
  17.         worksheet.write(count + i + 1, 2, x[i][2]) 
  18.         worksheet.write(count + i + 1, 3, x[i][3]) 
  19.     count = count +len(x) #下次寫入的行數是這次的長度+1 
  20.     return print("已完成"

四:主函數填寫

  1. if __name__ == "__main__"
  2.     count = 0 
  3.     headers = { 
  4.         "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36" 
  5.         ,"cookie":""#cookie 是每個人獨有的,因為反爬機制的緣故,爬取太快可能到后面要重新刷新一下自己的Cookie。 
  6.                 } 
  7.     q = input("輸入貨物"
  8.     x = int(input("你想爬取幾頁")) 
  9.     urls = Geturls(q,x) 
  10.     workbook = xlsxwriter.Workbook(q+".xlsx"
  11.     worksheet = workbook.add_worksheet() 
  12.     worksheet.set_column('A:A', 70) 
  13.     worksheet.set_column('B:B', 20) 
  14.     worksheet.set_column('C:C', 20) 
  15.     worksheet.set_column('D:D', 20) 
  16.     worksheet.write('A1''名稱'
  17.     worksheet.write('B1''價格'
  18.     worksheet.write('C1''地區'
  19.     worksheet.write('D1''付款人數'
  20.     for url in urls: 
  21.         html = GetHtml(url) 
  22.         s = GetxxintoExcel(html.text) 
  23.         time.sleep(5) 
  24.     workbook.close()#在程序結束之前不要打開excel,excel表在當前目錄下 

五:完整代碼

  1. import re 
  2. import  requests 
  3. import xlsxwriter 
  4. import  time 
  5.  
  6. def GetxxintoExcel(html): 
  7.     global count 
  8.     a = re.findall(r'"raw_title":"(.*?)"', html) 
  9.     b = re.findall(r'"view_price":"(.*?)"', html) 
  10.     c = re.findall(r'"item_loc":"(.*?)"', html) 
  11.     d = re.findall(r'"view_sales":"(.*?)"', html) 
  12.     x = [] 
  13.     for i in range(len(a)): 
  14.         try: 
  15.             x.append((a[i],b[i],c[i],d[i])) 
  16.         except IndexError: 
  17.             break 
  18.     i = 0 
  19.     for i in range(len(x)): 
  20.         worksheet.write(count + i + 1, 0, x[i][0]) 
  21.         worksheet.write(count + i + 1, 1, x[i][1]) 
  22.         worksheet.write(count + i + 1, 2, x[i][2]) 
  23.         worksheet.write(count + i + 1, 3, x[i][3]) 
  24.     count = count +len(x) 
  25.     return print("已完成"
  26.  
  27.  
  28. def Geturls(q, x): 
  29.     url = "https://s.taobao.com/search?q=" + q + "&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm" \ 
  30.                                                  "=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306 " 
  31.     urls = [] 
  32.     urls.append(url) 
  33.     if x == 1: 
  34.         return urls 
  35.     for i in range(1, x ): 
  36.         url = "https://s.taobao.com/search?q="+ q + "&commend=all&ssid=s5-e&search_type=item" \ 
  37.               "&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306" \ 
  38.               "&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=" + str( 
  39.             i * 44) 
  40.         urls.append(url) 
  41.     return urls 
  42.  
  43.  
  44. def GetHtml(url): 
  45.     r = requests.get(url,headers =headers) 
  46.     r.raise_for_status() 
  47.     r.encoding = r.apparent_encoding 
  48.     return r 
  49.  
  50. if __name__ == "__main__"
  51.     count = 0 
  52.     headers = { 
  53.         "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36" 
  54.         ,"cookie":"" 
  55.                 } 
  56.     q = input("輸入貨物"
  57.     x = int(input("你想爬取幾頁")) 
  58.     urls = Geturls(q,x) 
  59.     workbook = xlsxwriter.Workbook(q+".xlsx"
  60.     worksheet = workbook.add_worksheet() 
  61.     worksheet.set_column('A:A', 70) 
  62.     worksheet.set_column('B:B', 20) 
  63.     worksheet.set_column('C:C', 20) 
  64.     worksheet.set_column('D:D', 20) 
  65.     worksheet.write('A1''名稱'
  66.     worksheet.write('B1''價格'
  67.     worksheet.write('C1''地區'
  68.     worksheet.write('D1''付款人數'
  69.     xx = [] 
  70.     for url in urls: 
  71.         html = GetHtml(url) 
  72.         s = GetxxintoExcel(html.text) 
  73.         time.sleep(5) 
  74.     workbook.close() 

 【編輯推薦】

 

責任編輯:姜華 來源: 今日頭條
相關推薦

2020-08-19 17:14:26

Python數據函數

2014-09-01 09:09:05

商品信息數據分析

2017-12-20 09:35:25

Python爬蟲百度云資源

2025-11-14 09:10:49

2017-08-22 17:30:14

Python爬蟲

2021-04-16 08:02:05

Python下載音樂Python基礎

2021-05-18 14:42:55

PythonMySQL

2023-01-12 09:06:58

2024-10-23 08:00:00

PythonExcel數據分析

2023-11-29 10:16:24

ScrapyPython

2019-09-10 09:14:09

Python數據淘寶

2010-04-14 09:24:29

在Oracle數據庫

2019-07-23 13:32:13

Java開發代碼

2018-03-07 09:35:08

Python淘寶數據

2021-03-12 08:56:10

Java組件

2023-01-03 08:20:15

2009-12-04 15:52:46

PHP導入Excel文

2014-11-27 13:28:55

信息泄露淘寶烏云

2011-08-03 09:30:15

數據結構

2017-09-16 17:45:32

數據采集Scrapy爬蟲
點贊
收藏

51CTO技術棧公眾號

国产一区二区色噜噜| 国产在线更新| 久久久精品网| 国产精品久久久久久久久久久久久久 | 亚洲欧洲一区| 国产精品偷伦视频免费观看国产 | 亚洲精品资源美女情侣酒店| 欧美另类极品| 欧美午夜精品理论片a级按摩| 日本成年免费网站| 亚洲色图制服诱惑| 四虎黄色影院| 中文字幕在线一区| 性欧美videossex精品| 91视频com| 久久久精品麻豆| 亚洲国产经典视频| 激情 小说 亚洲 图片: 伦| 久久色中文字幕| 先锋影音资源综合在线播放av| 久久影院午夜论| jizzzz日本| 一区二区三区四区不卡在线| 在线观看视频网站你懂得| 一区二区不卡在线播放| 成人在线小说| 欧美日韩亚洲精品一区二区三区| 最新四虎影在线在永久观看www | 911久久香蕉国产线看观看| 国产精品久久久久久av福利| 成人激情开心网| 亚洲综合色av| 亚洲伊人观看| 欧美在线一二三区| 老司机免费视频一区二区| 免费国产成人看片在线| 99精品黄色片免费大全| 天天爱天天操天天干| 一区二区三区资源| 青青草视频在线免费观看| 欧美性高清videossexo| 岛国成人毛片| 在线视频欧美日韩精品| 中文字幕一区日韩精品| 国产精品视频区| 一区二区精品| 人妻av无码专区| 亚洲三级小视频| 在线观看免费黄视频| 日韩电影网在线| 精品午夜视频| 国产精品av在线播放| 国产日韩欧美一区二区三区在线观看 | 亚洲成在人线在线播放| 色大18成网站www在线观看| 日韩电影中文字幕在线| 日本亚州欧洲精品不卡| 国产精品免费久久久久影院| 亚洲高清成人| 看av免费毛片手机播放| 亚洲国产精品一区二区久久| 在线三级电影| 国产精品大片免费观看| 国产精品乱码| 国产不卡视频在线观看| 国产三级免费观看| 91精品中文字幕一区二区三区| 久草综合在线| 99久久无色码| 快she精品国产999| 99精品久久| 欧美日韩在线一| 亚洲视频你懂的| 伊人久久久久久久久久| 欧美爱爱网站| 欧日韩一区二区三区| 久久久久久久久久久电影| 亚洲国产资源| 亚洲欧美中文在线视频| 日韩88av| 国产欧美日韩网站| 欧美日韩精品欧美日韩精品一综合| 未满十八勿进黄网站一区不卡| 亚洲va欧美va在线观看| 懂色av一区二区夜夜嗨| 久久久久久青草| 综合国产在线视频| 激情视频一区二区三区| www.色偷偷.com| 亚洲高清不卡av| 亚洲综合激情在线| 97超超碰碰| 国产小视频国产精品| 好看不卡的中文字幕| 中文字幕国产传媒| 亚洲九九九在线观看| 2023国产精品久久久精品双| 国产性生交xxxxx免费| 亚洲成年网站在线观看| 午夜精品久久99蜜桃的功能介绍| www.日本xxxx| 在线看国产精品| 日韩精品一二三四| 国产高清在线观看| 17婷婷久久www| 成a人片国产精品| 欧美男人天堂| 日韩精品久久一区二区三区| 在线一区二区视频| 日韩欧美综合| 少妇免费视频| 日本欧美黄网站| 日本一二三四高清不卡| 国产精品高清乱码在线观看| 久久一区免费| 欧美日韩成人一区二区| 一区二区三区在线观看免费| 传媒在线观看| 国产精品久久久久久av福利| 亚洲欧洲精品天堂一级| 久久伦理中文字幕| 午夜免费福利小电影| 亚洲欧洲日产国产网站| 免费精品视频最新在线| 麻豆tv入口在线看| 蜜桃精品久久久久久久免费影院 | 国产精品久久久久久久浪潮网站| 欧美日韩精品免费观看视完整| 天堂精品视频| 精品第一国产综合精品aⅴ| 久久国产一二区| 麻豆视频免费在线观看| 久久久久久久久一区二区| 欧美日韩一本到| 日韩网站在线| 欧洲美女少妇精品| 免费国产一区二区| 欧美成人国产一区二区| 日韩1区2区3区| 性国裸体高清亚洲| 久久综合久久久久| 国产亚洲成精品久久| 99这里都是精品| 97一区二区国产好的精华液| 99免费视频| 成人免费视频在线观看超级碰| 色综合久久六月婷婷中文字幕| 亚洲激情专区| 国产自产自拍视频在线观看| 视色,视色影院,视色影库,视色网| 亚洲视屏在线播放| 久久久91精品国产一区二区精品| 极品束缚调教一区二区网站 | 久草在线视频网站| 大桥未久一区二区三区| 色爱av美腿丝袜综合粉嫩av | 久久久久久香蕉| 国产大陆a不卡| 精精国产xxxx视频在线中文版| 亚洲精品乱码视频| 日韩视频免费看| 国产精品第13页| 天天综合网91| 在线观看免费视频你懂的| 黄色污污在线观看| 久久久久国产精品www| 欧美日韩一区二区三区| 男女男精品视频网| 草莓视频一区二区三区| 污污软件在线观看| 一区精品在线| 欧美精品成人在线| 欧美伊人精品成人久久综合97| 激情av综合网| 国产精品三级| 黄色成人在线网| 色免费在线视频| 久久亚洲综合网| 欧美日韩国产成人在线观看| 91福利在线看| 91美女片黄在线观看91美女| 综合久久亚洲| 成人免费91| 欧美激情午夜| 日韩精品视频一区二区在线观看| 国产精品偷伦一区二区| 亚洲国产日韩欧美综合久久| 国产精品久久三| 日韩电影在线免费看| 综合国产视频| 色多多在线观看| 最新地址在线观看| 国产欧美精品aaaaaa片| 91香蕉国产在线观看| 色天天综合狠狠色| 色天天综合色天天久久| 久久网这里都是精品| 亚洲美女啪啪| 久久99蜜桃| 电影91久久久|