国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

手把手教你使用XPath爬取免費(fèi)代理IP

開發(fā) 前端
初學(xué)者Python爬蟲爬數(shù)據(jù)太難啦,構(gòu)造正則表達(dá)式的時候,太煩瑣了,眼睛都看花了,這篇文章我們教你如何使用XPath來爬取快代理中的免費(fèi)代理IP,告別眼花,告別IP被封的煩惱。

[[409033]]

好,我是霖hero。

前言

可能有人說,初學(xué)者Python爬蟲爬數(shù)據(jù)太難啦,構(gòu)造正則表達(dá)式的時候,太煩瑣了,眼睛都看花了,而且前一秒還可以愉快地爬取,下一秒IP就被封了,這還爬個屁啊,不爬了。哎,不要著急,這篇文章我們教你如何使用XPath來爬取快代理中的免費(fèi)代理IP,告別眼花,告別IP被封的煩惱。

XPath

首先我們來簡單了解一下XPath,想要了解更多XPath,我們可以打開W3school官方文檔進(jìn)行了解。

什么是 XPath?

  • XPath是XML路徑語言(XML Path Language);
  • XPath 使用路徑表達(dá)式在 XML 文檔中進(jìn)行導(dǎo)航;
  • XPath 包含一個標(biāo)準(zhǔn)函數(shù)庫;
  • XPath 是 XSLT 中的主要元素;
  • XPath 是一個 W3C 標(biāo)準(zhǔn);

XPath作用是什么?

  • XPath用來確定XML文檔中某部分位置的語言
  • XPath在XML文檔中查找信息的語言
  • XPath用于在XML文檔中通過元素和屬性進(jìn)行導(dǎo)航。

XPath 含有超過 100 個內(nèi)建的函數(shù)。這些函數(shù)用于字符串值、數(shù)值、日期和時間比較、節(jié)點和 QName 處理、序列處理、邏輯值等等。在Python爬蟲中,我們完成可以使用XPath來做相應(yīng)的信息抽取。

XPath——常用規(guī)則

簡單了解一下XPath后,我們來看看它的常用規(guī)則,如下表:

我們來簡單說一個示例:

  1. //title[@*] 

這就是一個XPath規(guī)則,它代表選擇選取所有帶有屬性的 title 元素。

好了,大概了解了XPath的常用規(guī)則和用法了,我們來添加一個Chrome瀏覽器的小插件——XPath Helper,這個小插件可以大大提高了我們使用XPath的效率。

XPath Helper的添加與使用

XPath Helper的添加

首先打開Chrome商店搜索XPath Helper,如下圖所示:

點擊方框2,將插件添加至Chrome中,如下圖所示:

這里我們推薦點擊下圖的小圖釘,更方便我們使用XPath Helper插件

這樣XPath Helper插件就添加完畢了,接下來我們簡單演示一下如何使用該插件。

XPath Helper的使用

首先我們打開今天要爬取的快代理網(wǎng)站并打開開發(fā)者工具,找到我們要爬取內(nèi)容的節(jié)點,如下圖所示:

然后打開我們添加的插件,并輸入XPath規(guī)則,如下圖所示:

我們根據(jù)了table節(jié)點信息,來構(gòu)造了XPath規(guī)則,輸入XPath規(guī)矩可以直接看到返回的是什么,這樣我們就不需要每構(gòu)成一次就在程序里運(yùn)行看看能不能返回我們想要的值,這樣大大提高我們的效率。

實戰(zhàn)演練

爬取首頁

我們首先打開快代理免費(fèi)代理網(wǎng)站并打開開發(fā)者工具,如下圖所示:

通過觀察可以發(fā)現(xiàn),頁面的URL最后的那個數(shù)字就是頁碼,也就是我們進(jìn)行翻頁的重要參數(shù),這里我們使用了page變量為我們翻頁的參數(shù),具體代碼如下:

  1. headers={ 
  2.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36' 
  3. def get_page(page): 
  4.     url='https://www.kuaidaili.com/free/inha/'+str(page) 
  5.     response=requests.get(url,headers=headers) 
  6.     #數(shù)據(jù)類型轉(zhuǎn)換 
  7.     html = parsel.Selector(response.text) 
  8.     parse_page(html) 

首先我們構(gòu)造了一個請求頭,然后定義了一個get_page()方法,這里要注意的是,當(dāng)我們獲取了請求頁面的文本數(shù)據(jù)時,要進(jìn)行數(shù)據(jù)類型的轉(zhuǎn)換,轉(zhuǎn)換為XPath可以查找信息的HTML文本,也就是創(chuàng)建了一個parsel.Selector對象,轉(zhuǎn)換后,我們就調(diào)用parse_page()方法,并傳入html參數(shù)。

XPath規(guī)則提取內(nèi)容

我們已經(jīng)成功提取了網(wǎng)頁的HTML文本,接下來我們開始利用XPath規(guī)則來提取想要的內(nèi)容,首先我們要確定XPath規(guī)則提取內(nèi)容的范圍,如下圖所示:

從圖中我們可以看到table節(jié)點里包含我們要提取內(nèi)容,然后我們使用XPath Helper插件來方便我們確定是否能準(zhǔn)確提取目標(biāo)內(nèi)容,如下圖所示:

圖中的方框就是我們要提取內(nèi)容的范圍,確定范圍后,我們確定提取內(nèi)容對應(yīng)的XPath規(guī)則,如下圖所示:

好了,我們成功提取到了IP地址,經(jīng)過觀察,我們只要把圖中左上角的方框中IP改為PORT,這樣就可以提取到了端口號了,具體實現(xiàn)代碼如下:

  1. def parse_page(html): 
  2.     #XPath的匹配范圍 
  3.     parse_list = html.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr'
  4.     for tr in parse_list: 
  5.         parse_lists = {} 
  1. http=tr.xpath('./td[@data-title="類型"]//text()').extract_first() 
  2.       num=tr.xpath('./td[@data-title="IP"]//text()').extract_first() 
  3.       port=tr.xpath('./td[@data-title="PORT"]//text()').extract_first() 
  4.       parse_lists[http]=num+':'+port 
  5.       time.sleep(0.1) 
  6.       print(parse_lists) 

要注意的是:

  • 我們在構(gòu)造XPath規(guī)則時,如://td[@data-title="IP"],我們要將最前面的/改為.,否則只匹配頁面的第一個內(nèi)容;
  • 在XPath規(guī)則中,通過使用text()方法獲取節(jié)點內(nèi)部的文本,如在規(guī)則后面加//text();
  • 調(diào)用extract_first()返回的是一個string字符串,是list數(shù)組里面的第一個字符串。

最后我們通過構(gòu)造一個parse_lists字典,來使我們的數(shù)據(jù)更好看。

循環(huán)遍歷

我們使用一個for循環(huán),來遍歷翻頁,具體代碼為:

  1. if __name__ == '__main__'
  2.     for page in range(1,3): 
  3.         get_page(page) 

好了,這樣我們就成功爬取了快代理的免費(fèi)代理IP的前兩頁,我們可以根據(jù)需要來進(jìn)行保存免費(fèi)代理IP。

結(jié)果展示

 

責(zé)任編輯:姜華 來源: Python爬蟲與數(shù)據(jù)挖掘
相關(guān)推薦

2020-03-08 22:06:16

Python數(shù)據(jù)IP

2021-09-29 08:53:36

scrapy框架Twisted

2025-05-07 00:31:30

2021-07-14 09:00:00

JavaFX開發(fā)應(yīng)用

2021-08-04 08:55:02

Socket Java開發(fā)

2022-12-07 08:42:35

2009-03-18 11:36:21

代理服務(wù)器下載MyEclipse7.

2021-08-02 07:35:19

Nacos配置中心namespace

2011-05-03 15:59:00

黑盒打印機(jī)

2011-01-10 14:41:26

2021-05-08 08:04:05

Python爬取素材

2021-03-12 10:01:24

JavaScript 前端表單驗證

2020-05-15 08:07:33

JWT登錄單點

2021-12-15 08:49:21

gpio 子系統(tǒng)pinctrl 子系統(tǒng)API

2022-07-22 12:45:39

GNU

2022-10-30 10:31:42

i2ccpuftrace

2021-01-19 09:06:21

MysqlDjango數(shù)據(jù)庫

2011-02-22 13:46:27

微軟SQL.NET

2021-02-26 11:54:38

MyBatis 插件接口

2021-12-28 08:38:26

Linux 中斷喚醒系統(tǒng)Linux 系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號

国产清纯美女被跳蛋高潮一区二区久久w| 玖玖玖精品中文字幕| 欧美日韩在线精品| 成人av资源电影网站| 久久久久在线观看| 女厕嘘嘘一区二区在线播放 | 国产欧美日韩在线视频| 日日噜噜夜夜狠狠视频 | 成人黄色在线| 中文字幕欧美精品日韩中文字幕| 视频一区中文字幕精品| 91在线看www| 国产精品一区二区果冻传媒| 亚洲精品电影在线一区| 国产精品视频免费| 亚洲小说区图片| 日本成人在线视频网址| 久久香蕉精品香蕉| 国产一区国产精品| 老司机精品视频一区二区三区| 日本a在线免费观看| 欧美亚洲高清一区| 成人亚洲精品| 在线观看免费91| 亚洲一区二区高清| 久久国产精品99国产精| 久久精品国产68国产精品亚洲| 无码av天堂一区二区三区| 在线日韩一区二区| 日韩精品福利一区二区三区| 国产富婆一区二区三区| 午夜精品视频| av电影免费| 欧美日韩成人在线观看| 性伦欧美刺激片在线观看| 最新在线观看av网站| 亚洲国产精品女人久久久| 亚洲情侣在线| 色偷偷亚洲女人天堂观看欧| 精品国产欧美一区二区三区成人| 你懂的国产精品| 免费国产成人看片在线| 欧美本精品男人aⅴ天堂| 日韩专区视频| 国产91在线播放| 亚洲一区二区三区高清不卡| 91在线视频观看免费| 色综合男人天堂| jiyouzz国产精品久久| 国产原创视频在线观看| 成人av动漫在线| 成人高潮成人免费观看| 日本亚洲欧美成人| 国产精品视频看| 日韩高清一区| 成人动漫h在线观看| 国产精品久久久久av| 亚洲精品成人悠悠色影视| 欧美人妖在线| 色网视频在线| 久久99精品久久久久久青青日本| 欧美欧美欧美欧美首页| 极品少妇一区二区三区精品视频 | 成人福利在线| 亚洲一区av在线播放| 久久女同精品一区二区| 亚洲一区二区电影| 日本一区二区三区视频在线观看 | av大全在线免费看| 三区精品视频| 国产一区二区三区在线视频 | 不卡av在线播放| 国产一区二区三区日韩 | 一区二区三区在线观看视频| 成人免费在线观看视频| 日本精品一区二区三区四区| 国产噜噜噜噜噜久久久久久久久 | 2022国产精品| 亚洲日本欧美日韩高观看| 亚洲视频tv| 国产91在线亚洲| 国产精品视频xxx| 日韩精品免费综合视频在线播放| 国产精品天美传媒| 亚洲激情在线| 精品一区亚洲| 欧美成人黑人| 成人天堂av| 欧美日本亚洲视频| 欧美三级午夜理伦三级中视频| 处破女av一区二区| 欧美电影完整版在线观看| 在线最新版中文在线| 成年人在线观看网站| 国产99久久九九精品无码| 国产精品大全| 奇米4444一区二区三区| y97精品国产97久久久久久| 最新国产成人在线观看| 菠萝蜜视频在线观看一区| 极品尤物一区| 久久精品xxxxx| 国模私拍视频在线播放| 色婷婷av一区| 精品久久久在线观看| 亚洲欧美激情在线| 久久一二三四| 亚洲一区成人| 婷婷亚洲综合| 日韩成人午夜| 日韩大片在线免费观看| 日韩免费高清视频网站| japansex久久高清精品| 在线天堂资源www在线污| 少妇视频在线观看| 草莓视频丝瓜在线观看丝瓜18| 黄色在线免费| 在线观看麻豆| 亚洲第一图区| 免费在线黄网| 日韩一级免费片| 天天干天天综合| 国产特级毛片| gogogo高清在线观看免费完整版| 污网站在线看| 国产美女av在线| 女人黄色免费在线观看| 综合日韩av| 男人日女人逼逼| 性做久久久久久免费观看欧美| wwwwww.欧美系列| 亚洲综合色在线| 欧美午夜不卡在线观看免费| 亚洲国产成人爱av在线播放| 日韩av一区二区在线观看| 亚洲国产成人久久| 欧美超级乱淫片喷水| 日本一区二区不卡| 国产伦理一区二区三区| 欧美一区视久久| 黄色片免费在线观看视频| 蜜桃视频网站www| 国产中文字幕在线视频| 成年人在线观看网站| 成人国产一区二区三区精品麻豆| 中文字幕一区二区三区四区久久| 日韩欧美三级| 麻豆免费精品视频| 国产精品久久久久久久久免费桃花 | 日韩影院一区| 免费亚色电影在线观看| 国产最新在线| 成人情趣视频| 337p粉嫩大胆噜噜噜噜噜91av | 神马影院一区二区三区| 国产女主播一区二区三区| www.好吊操| 99免费看香蕉视频| 欧美日韩国产va另类| 欧美黑人性视频| 国产美女久久久| 懂色av粉嫩av蜜臀av| 色网在线视频| 99er精品视频| 欧美在线不卡| 成人做爰视频www| 凹凸成人精品亚洲精品密奴| 免费日韩精品中文字幕视频在线| 石原莉奈一区二区三区在线观看 | 男人添女人下面高潮视频| 亚洲成人套图| 国模大尺度视频一区二区| 免费亚洲电影在线| 欧美日韩一区免费| 成年人精品视频| 日韩av日韩在线观看| 永久免费看mv网站入口亚洲| 亚洲综合av影视| 九色视频网站入口| 日本亚州欧洲精品不卡| 国产美女av一区二区三区| 欧美色手机在线观看| 成人激情在线播放| 男人日女人bb视频| av手机在线观看| 伊人久久大香线蕉精品组织观看| 国产网站一区二区三区| 精品一区二区三区四区| 国产伦精品一区二区三区视频孕妇| 免费高清视频日韩| 亚洲激情电影在线| 色视频www在线播放| 精品一区欧美| 亚洲免费av高清| 欧美激情一区二区三区成人 | 韩国一区二区在线观看| 精品成人国产在线观看男人呻吟| 国产精品爽爽ⅴa在线观看| 中文一区一区三区免费| 亚洲精品永久免费视频|