国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

細說Beautiful Soup4,你學會了嗎?

開發(fā) 前端
Beautiful Soup 將復雜 HTML 文檔轉換成一個復雜的樹形結構,每個節(jié)點都是 Python 對象,所有對象可以歸納為 4 種。

Beautiful Soup4是一個 Python 庫,用于從 HTML 和 XML 文件中提取數(shù)據(jù)。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù),Beautiful Soup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。

BeautifulSoup安裝

使用pip來安裝BeautifulSoup。

pip install bs4 

另外要安裝解析器,下列表格列出一些常用的解析器。

圖片

使用BeautifulSoup及四大對象

1、創(chuàng)建BeautifulSoup對象

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)

print(soup.prettify()) // 格式化輸出
print(soup.get_text()) // 獲取網(wǎng)頁所有的文字內容

2、BeautifulSoup四大對象

Beautiful Soup 將復雜 HTML 文檔轉換成一個復雜的樹形結構,每個節(jié)點都是 Python 對象,所有對象可以歸納為 4 種。

  • Tag:HTML中的標簽,簡單來說就是html標簽。
  • NavigableString:簡單來說就是標簽里面的內容,它的類型是一個NavigableString,翻譯過來叫可以遍歷的字符串。
  • BeautifulSoup:BeautifulSoup對象表示的是一個文檔的全部內容,大部分時候,可以把它當作Tag對象,是一個特殊的Tag,我們可以分別獲取它的類型、名稱、以及屬性
  • Comment:一個特殊類型的NavigableString對象,其實輸出的內容不包括注釋符號

Tag對象示例

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.title)
print(soup.a)
print(soup.p)

運行輸出如下圖所示,但是發(fā)現(xiàn)好像這個網(wǎng)頁不止一個a標簽跟p標簽,是因為它查找的是在所有內容中的第一個符合要求的標簽,要想得到所有符合要求的標簽,后面會介紹find_all函數(shù)。

圖片

在Tag對象中有兩個重要的屬性,name和attrs。

import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.attrs)

運行輸出如下圖所示,name輸出的是標簽的本身,attrs輸出的是一個字典的類型,如果我們需要得到某個標簽的某個屬性可以使用字典一些方法去獲取比如get方法,print(soup.p.get("class"))或者直接使用print(soup.p["class"])。

圖片

NavigableString代碼示例:

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.string)

運行輸出如下圖,可以NavigableString類型的string方法輕松獲取到了標簽里面的內容。

圖片

BeautifulSoup代碼示例:

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"

content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.name)
print(soup.attrs)

運行輸出如下圖所示:

圖片

Comment代碼示例:

from bs4 import BeautifulSoup
htmlText = '#<a class="sister" id="link1"><!-- Comment --></a>'
soup = BeautifulSoup(htmlText)
print(soup.a.string)

運行輸出如下,a 標簽里的內容實際上是注釋,但是如果利用 .string方法來輸出它的內容,發(fā)現(xiàn)它已經(jīng)把注釋符號去掉了,所以這可能會給帶來不必要的麻煩。

圖片

文檔樹遍歷

  • 直接子節(jié)點

tag里面的content屬性可以將tag的子節(jié)點以列表的形式返回。通過遍歷content.返回的列表來獲取每一個子節(jié)點或者直接使用tag的children方法來獲取。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.head.contents)
for child in soup.head.contents:
print(child)

for child in soup.head.children:
print(child)

運行輸出結果如下圖所示:

圖片

  • 所有子孫節(jié)點

tag里面的.descendants 屬性可以對所有tag的子孫節(jié)點進行遞歸循環(huán),和 children類似,我們也需要遍歷獲取其中的內容。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
for child in soup.descendants:
print(child)

運行結果輸出如下圖所示:

圖片

  • 節(jié)點內容

使用.string方法來獲取內容,如果一個標簽里面沒有標簽了,那么 .string 就會返回標簽里面的內容。如果標簽里面只有唯一的一個標簽了,那么 .string 也會返回最里面的內容,如果標簽里面沒有內容則返回None。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
print(soup.a.string)
print(soup.title.string)

運行結果輸出如下圖所示:

圖片

  • 多個內容

使用strippend_strings 屬性來獲取多個內容還可以出除多余的空白字符,需要使用遍歷來獲取。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content)
for child in soup.stripped_strings:
print(child)

運行結果輸出如下圖所示:

圖片

  • 父節(jié)點

通過元素的 .parents 屬性可以遞歸得到元素的所有父輩節(jié)點。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"html.parser")
parentObject = soup.head.title

for parent in parentObject.parent:
print(parent.name)

運行結果輸出如下圖所示:

圖片

還有一些節(jié)點就不舉例,跟其它獲取節(jié)點一樣也是需要遍歷,而且使用的場景不同,兄弟節(jié)點使用.next_siblings或者.previous_sibling方法,前后節(jié)點使用.next_element或者.previous_element方法。

搜索文檔樹

find_all(name,attrs,recursive,text,\kwargs)**,find_all()方法用于搜索當前tag的所有tag子節(jié)點,并判斷是否符合過濾條件。

  • 傳字符串

最簡單的過濾器是字符串,在搜索方法中傳入一個字符串參數(shù),beautifulsoup會查找與字符串完整匹配的內容,下面的例子用于查找文檔中的所有a標簽

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

print(soup.find_all("a"))

運行結果如下圖所示:

圖片

  • 傳正則表達式

如果傳入正則表達式作為參數(shù),beautiful soup會通過正則表達式的match()來匹配內容,下面例子中找出所有以b開頭的標簽,這表示b開頭標簽都應該被找到。

from bs4 import BeautifulSoup
import requests
import re
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

for tag in soup.find_all(re.compile('^b')):
print(tag.name)

運行結果如下圖所示:

圖片

  • 傳列表

如果傳入列表參數(shù),Beautiful Soup會將與列表中任一元素匹配的內容返回.下面代碼找到文檔中所有標簽和標簽。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

print(soup.find_all(["a", "p"]))

運行結果如下圖所示:

圖片

  • 傳True

true 可以匹配任何值,下面代碼查找到所有的tag,但是不會返回字符串節(jié)點。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")

for tag in soup.find_all(True):
print(tag.name)

運行結果如下圖所示:

圖片

  • 傳函數(shù)

如果沒有合適過濾器,那么還可以定義一個函數(shù),函數(shù)只接受一個元素參數(shù),如果這個方法返回 True 表示當前元素匹配并且被找到,如果不是則返回 False。

from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
def has_class_but_no_id(tag):
return tag.has_attr('class') and not tag.has_attr('id')

print(soup.find_all(has_class_but_no_id))

輸出結果如下圖所示:

圖片

  • keyword 參數(shù)

注意:如果一個指定名字的參數(shù)不是搜索內置的參數(shù)名,搜索時會把該參數(shù)當作指定名字tag的屬性來搜索,如果包含一個名字為id的參數(shù),Beautifulsoup會搜索每個tag的'id'值。

import re
from bs4 import BeautifulSoup
import requests
url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.find_all(id='lg'))
print(soup.find_all(href=re.compile("hao123")))

運行結果如下圖所示:

圖片

find(name , attrs , recursive , text , **kwargs ), 它與 find_all() 方法唯一的區(qū)別是 find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果。?

CSS選擇器

在使用BeautifulSoup中常用的有5中css選擇器方法,用到的方法是 soup.select(),返回類型是列表。

  • 通過標簽名查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select("title"))

運行結果如下圖所示:

圖片

  • 通過CSS類名查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select(".mnav"))

運行結果如下圖所示:

圖片

  • 通過ID來查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select("#lg"))

運行結果如下圖所示:

圖片

  • 組合查找

組合查找有點類似前端CSS選擇器中的組合選擇器,組合查找還可以使用子代選擇器。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('div #lg'))

print(soup.select('div > a'))

運行結果如下圖所示:

圖片

  • 通過CSS屬性查找

使用屬性需要用中括號括起來,注意屬性和標簽屬于同一節(jié)點,所以中間不能加空格,否則會無法匹配到。

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('a[class="mnav"]'))
  • 不同節(jié)點使用屬性查找
from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
content = requests.get(url).content
soup = BeautifulSoup(content,"lxml")
print(soup.select('span input[class="bg s_btn"]'))

運行結果如下圖所示:

圖片

修改文檔樹

Beautiful Soup的強項是文檔樹的搜索,但同時也可以方便的修改文檔樹

  • 修改tag的名稱和屬性
from bs4 import BeautifulSoup
import requests
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>',"lxml")
tag = soup.b
tag.name = "newtag"
tag['class'] = 'newclass'
tag['id'] = 1
print(tag)

del tag['class']
print(tag)

運行結果如下圖所示:

圖片

  • 修改標簽內容

給tag的 .string 屬性賦值,就相當于用當前的內容替代了原來的內容,如果當前的tag包含了其它tag,那么給它的 .string 屬性賦值會覆蓋掉原有的所有內容包括子tag。

from bs4 import BeautifulSoup
import requests

markup = '<a >I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup,"lxml")

tag = soup.a
tag.string = "New link text."
print(tag)

運行結果如下圖所示:

圖片

  • 在tag中添加內容

Tag.append() 方法可以在tag中添加內容。

from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup("<a>Foo</a>","lxml")
soup.a.append("Bar")
print(soup)
print(soup.a.contents)

運行結果如下圖所示:

圖片

總結

本篇內容比較多,把 Beautiful Soup 的方法進行了大部分整理和總結,但是還不夠完整只是列出一些常用的,如果需要完整的可以查看Beautiful Soup 官網(wǎng)的文檔,希望對大家有幫助,掌握了 Beautiful Soup,一定會給你在數(shù)據(jù)爬取帶來方便。

本文轉載自微信公眾號「愛編碼的社畜」,可以通過以下二維碼關注。轉載本文請聯(lián)系愛編碼的社畜公眾號。

責任編輯:姜華 來源: 愛編碼的社畜
相關推薦

2024-01-19 08:25:38

死鎖Java通信

2023-07-26 13:11:21

ChatGPT平臺工具

2023-01-10 08:43:15

定義DDD架構

2024-02-04 00:00:00

Effect數(shù)據(jù)組件

2024-01-02 12:05:26

Java并發(fā)編程

2023-08-01 12:51:18

WebGPT機器學習模型

2024-07-31 08:39:45

Git命令暫存區(qū)

2024-05-06 00:00:00

InnoDBView隔離

2023-12-12 08:02:10

2023-01-30 09:01:54

圖表指南圖形化

2022-07-08 09:27:48

CSSIFC模型

2024-08-06 09:47:57

2023-10-10 11:04:11

Rust難點內存

2022-07-13 08:16:49

RocketMQRPC日志

2023-07-30 22:29:51

BDDMockitoAssert測試

2022-12-06 07:53:33

MySQL索引B+樹

2023-10-06 14:49:21

SentinelHystrixtimeout

2023-05-05 06:54:07

MySQL數(shù)據(jù)查詢

2024-03-06 08:28:16

設計模式Java

2023-06-26 13:08:52

GraphQL服務數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號

欧美日韩aaaa| 国产+人+亚洲| 国产精品欧美激情在线观看| 欧美精品国产| 亚洲欧美日韩第一区| 香蕉av在线| 成人在线一区二区三区| 精品福利影视| 美腿丝袜亚洲图片| 日韩视频在线一区| 日本片在线看| 欧美丝袜一区二区| 性一爱一乱一交一视频| a亚洲天堂av| 中文字幕成人一区| 国产欧美69| 国产福利久久| 欧美激情四色| 91老司机在线| 日韩精品2区| 青青草成人在线| 伊色综合久久之综合久久| 日韩www在线| 国产伦子伦对白在线播放观看| 91.麻豆视频| 国产二区三区在线| 欧美疯狂性受xxxxx喷水图片| 日韩欧美在线观看一区二区| 一区二区三区高清不卡| 猫咪av永久| 亚洲一区二区三区小说| 97在线观看| 一区二区三区四区蜜桃 | 免费99视频| 99综合视频| 亚洲欧美日韩国产成人综合一二三区 | 国产精品二三区| 99在线免费观看| 国产欧美综合在线观看第十页| 久久成人这里只有精品| 福利视频一区| 欧美大片在线影院| 国产一区二区三区天码| 成人有码视频在线播放| 91成人超碰| 欧美大香线蕉线伊人久久| 香蕉av777xxx色综合一区| 欧美aaaaa喷水| 国产91精品免费| 99.玖玖.com| 乱小说综合网站| 综合久久久久久| 天堂а√在线8种子蜜桃视频 | 久操网在线观看| 亚洲天堂av一区| aaa日本高清在线播放免费观看| 在线观看日韩高清av| 大片免费在线看视频| 亚洲视频自拍偷拍| 精品视频高潮| 成人18视频| 国产成人精品免费网站| 爱情岛论坛vip永久入口| 亚洲超碰97人人做人人爱| 日本三级在线视频| 一区国产精品视频| 日韩黄色大片| 日本xxxxx18| 亚洲日本在线观看| 婷婷在线播放| 欧美富婆性猛交| 国模吧视频一区| 999在线观看视频| 色综合天天在线| 未满十八勿进黄网站一区不卡| 91精品美女在线| 成人黄页毛片网站| 男女视频在线观看免费| 亚洲人成网站在线播| 成人精品视频| 黄色片免费在线观看视频| 亚洲影视资源网| 色是在线视频| 国产精品久久久久久av福利| 久久中文欧美| 免费看av大片| 亚洲欧美变态国产另类| 日韩欧美1区| 欧美三级一级片| 91精品久久久久久久久99蜜臂| 波多野结衣欧美| 欧美成ee人免费视频| 中文字幕一区视频| 欧美激情网站| 99国精产品一二二线| 99久久er热在这里只有精品66| 99中文字幕一区| 国产不卡在线观看| 成人黄色国产精品网站大全在线免费观看| 人人九九精品| 91国内免费在线视频| 国产精品456| a视频在线观看| 国产日韩欧美在线观看| 久久婷婷成人综合色| 国产丝袜在线播放| 99国产超薄肉色丝袜交足的后果 | 久精品国产欧美| 一区二区在线观看视频在线观看| 8x8ⅹ拨牐拨牐拨牐在线观看| 91精品国产自产在线| 国产亚洲va综合人人澡精品| hd国产人妖ts另类视频| 444亚洲人体| 夜夜夜精品看看| 亚洲精品一二三**| 黄色www网站| 亚洲美女www午夜| 久久久久久久高潮| 青青草超碰在线| 国产精品久久久久久久久免费 | 国产在线精品一区二区不卡了| 中文字幕高清在线观看| www.欧美.com| 国产美女情趣调教h一区二区| 国产欧美精品xxxx另类| 国产欧美在线观看一区| 影视一区二区三区| 宅男一区二区三区| 亚洲缚视频在线观看| 久久久亚洲人| dy888亚洲精品一区二区三区| 国产伦理久久久| 欧美色精品在线视频| 女人色偷偷aa久久天堂| 伊人网站在线| 国产主播在线一区| 午夜av电影一区| 亚洲国产精品久久久天堂 | 全国精品久久少妇| 国产在线观看a| 欧美午夜精品理论片a级大开眼界| 欧美日韩一级黄| 亚洲三级毛片| 欧美xxx黑人xxx水蜜桃| 艳色歌舞团一区二区三区| 亚洲经典中文字幕| 成人在线综合网| 亚洲一区二区三区在线免费| 亚洲欧美自拍另类日韩| 日韩免费av一区二区| 福利二区91精品bt7086| 国产精品亚洲综合色区韩国| 亚洲成人三级| 中文字幕欧美日韩一区二区三区| 亚洲精品天天看| 中国av一区二区三区| 红桃成人av在线播放| 国产露出视频在线观看| 亚洲国产日韩欧美| 久久国产精品久久久久| 一区二区三区av电影| 国产精品成人一区二区网站软件| 日本免费在线视频| 国产日韩欧美精品在线观看| 欧美一级视频免费在线观看| 在线视频综合导航| 久久国产精品免费| 91国内精品| 超碰在线影院| 久久久久久久久久久久久国产| 色综合伊人色综合网| 国产很黄免费观看久久| www.久久久.com| 在线观看黄色| 日本视频精品一区| 国产亚洲视频在线| 久久女同精品一区二区| 91精品一区二区三区综合在线爱| 成年女人的天堂在线| 亚洲午夜精品久久久中文影院av | 国产在线视视频有精品| 综合日韩av| 激情视频综合网| 国产福利成人在线| 欧美亚洲动漫精品| 久久国产欧美日韩精品| 日韩丝袜视频| 国产黄色在线免费观看| 久久视频这里有精品| 国产精品中文字幕在线| 欧美一区二区三区思思人| 国产女人18毛片水真多成人如厕| av一区二区高清| 国精一区二区三区| 人妻少妇被粗大爽9797pw| 国产精品免费在线| 久久九九免费视频| 色先锋资源久久综合| 国产亚洲欧美中文|