国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

一日一技:圖文結(jié)合,大模型自動抓取列表頁

人工智能
CogView-3-Plus能夠提供更加精細的文生圖能力。如果我們使用GLM-4V-Plus抓取網(wǎng)頁,使用GLM-4-Plus分析網(wǎng)頁的內(nèi)容并生成文案,最后使用CogView-3-Plus生成配圖,然后自動發(fā)小紅書或者公眾號,形成閉環(huán)。

熟悉我的同學都知道,GNE可以自動化提取任意文章頁面的正文,專業(yè)版GnePro的準確率更是在13萬個網(wǎng)站中達到了90%。

但GNE一直不支持列表頁的自動抓取。這是因為列表頁的列表位置很難定義。例如下面這張圖片:

圖片圖片

對人來說,要找到文章列表很簡單,紅色方框框住的部分就是我們需要的文章列表。但如果讓程序自動根據(jù)HTML格式相似的規(guī)律來尋找列表頁,它可能會提取出藍色方框的位置、綠色方框的位置、灰色方框的位置,甚至導(dǎo)航欄。

之前我也試過使用ChatGPT來提取文章列表,但效果并不理想。因為傳給大模型HTML以后,他也不能知道這里面某個元素在瀏覽器打開以后,會出現(xiàn)什么位置。因此它本質(zhì)上還是通過HTML找元素相似的規(guī)律來提取列表項目。那么其實沒有解決我的根本問題,上圖中的藍色、綠色、灰色位置還是經(jīng)常會提取到。

前兩天使用GLM-4V識別驗證碼以后,我對智譜的大模型在爬蟲領(lǐng)域的應(yīng)用充滿了期待。正好這兩天智譜上線了視頻/圖片理解的旗艦?zāi)P虶LM-4V-Plus。于是我突然有了一個大膽的想法,能不能結(jié)合圖片識別加上HTML,讓大模型找到真正的文章列表位置呢?

說干就干,我這次使用少數(shù)派的Matrix精選頁面來進行測試。如下圖所示:

圖片圖片

需要注意的是,這個頁面是異步加載的頁面,因此通過在開發(fā)者工具中右鍵來獲取包含列表頁的源代碼,如下圖所示:

圖片圖片

接下來,為了節(jié)省Token省錢,我首先對這個HTML進行清洗,移除一些顯然不需要的HTML元素:

from lxml.html import fromstring, HtmlElement
from lxml.html import etree

def remove_node(node: HtmlElement):
    """
    this is a in-place operation, not necessary to return
    :param node:
    :return:
    """
    parent = node.getparent()
    if parent is not None:
        parent.remove(node)

with open('/Users/kingname/Downloads/sspai.html') as f:
    html = f.read()
selector = fromstring(html)

USELESS_TAG = ['style', 'script', 'link', 'video', 'iframe', 'source', 'picture', 'header', 'blockquote',
               'footer', 'svg']
for tag in USELESS_TAG:
    eles = selector.xpath(f'//{tag}')
    for ele in eles:
        remove_node(ele)


html_clean = etree.tostring(selector, pretty_print=True, encoding='unicode')
print(html_clean)

代碼如下圖所示:

圖片圖片

其實有很多頁面,在源代碼里面會有一個<script>標簽,它有一個type屬性,值是application/ld+json。它的text是一個大JSON,包含了頁面上的所有有用信息。只需要提取這個JSON并解析就能拿到需要的全部信息。不過這個情況不在今天的討論范圍,因此我們也把<script>一并刪去。

接下來,對少數(shù)派這個列表頁做一下截圖,調(diào)用GLM-4V-Plus模型時,同時上傳截圖和源代碼。如下圖所示:

圖片圖片

在system里面,我定義了一個函數(shù),并通過注釋說明這個函數(shù)需要實現(xiàn)什么功能。讓GLM-4V-Plus首先理解圖片,然后分析HTMl,并補全我的Python代碼。

最后運行生成的代碼如下圖所示:

圖片

我把這段代碼復(fù)制出來執(zhí)行,發(fā)現(xiàn)可以正確解析出列表頁中每篇文章的標題和URL,如下圖所示:

圖片圖片

它自動生成的XPath,到少數(shù)派頁面上手動驗證,發(fā)現(xiàn)確實能夠正確找到每一篇文章:

圖片圖片

看起來,GLM-4V-Plus模型確實天然適合做爬蟲:既能識別驗證碼,又可以識別網(wǎng)頁生成XPath提取數(shù)據(jù)。如果我再把DrissionPage用上,解決反爬蟲問題,最后通過模型的Tool Call機制來控制DP操作頁面,那就是全自動爬蟲了。后面就有無限的想象力了。

如果大家對GLM-4V-Plus+DrissionPage結(jié)合的全自動爬蟲有興趣,請在本文下面留言。我們下一篇文章,就來實現(xiàn)這個真正意義上的,自己動,自己抓,自己解析的,擁有自己大腦的全自動爬蟲。

除了GLM-4V-Plus 外,這一次的旗艦?zāi)P瓦€有GLM-4-Plus和CogView-3-Plus模型。

GLM-4-Plus無論是解決復(fù)雜的數(shù)學問題、解析深奧的代碼算法,還是理解并解答各類邏輯推理題都有了極大的提升。使得模型能夠更好地反映人類的思維方式和偏好。

CogView-3-Plus能夠提供更加精細的文生圖能力。如果我們使用GLM-4V-Plus抓取網(wǎng)頁,使用GLM-4-Plus分析網(wǎng)頁的內(nèi)容并生成文案,最后使用CogView-3-Plus生成配圖,然后自動發(fā)小紅書或者公眾號,形成閉環(huán)。

責任編輯:武曉燕 來源: 未聞Code
相關(guān)推薦

2024-10-16 21:47:15

2024-08-27 22:08:13

2024-11-11 00:38:13

Mypy靜態(tài)類型

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2021-10-15 21:08:31

PandasExcel對象

2021-04-12 21:19:01

PythonMakefile項目

2025-05-28 03:15:00

Scrapy數(shù)據(jù)sleep

2024-07-30 08:16:18

Python代碼工具

2021-03-12 21:19:15

Python鏈式調(diào)用

2023-10-28 12:14:35

爬蟲JavaScriptObject

2021-04-05 14:47:55

Python多線程事件監(jiān)控

2024-11-13 09:18:09

2024-07-30 08:11:16

2021-04-19 23:29:44

MakefilemacOSLinux

2022-03-12 20:38:14

網(wǎng)頁Python測試

2021-09-13 20:38:47

Python鏈式調(diào)用

2022-06-28 09:31:44

LinuxmacOS系統(tǒng)

2021-05-08 19:33:51

移除字符零寬

2024-07-19 18:23:17

2021-07-27 21:32:57

Python 延遲調(diào)用
點贊
收藏

51CTO技術(shù)棧公眾號

视频一区视频二区视频三区视频四区国产 | 欧美视频二区36p| 美女尤物久久精品| 亚洲精品国模| 国产一区二区三区精品在线观看| 免费在线毛片| 一本大道香蕉久久| 国产一级特黄a大片免费| 亚洲国产另类久久久精品极度| 欧美一区二三区| 久久精品国产欧美亚洲人人爽| 亚洲成人精品av| 欧美日韩成人综合天天影院 | 国产女主播av| 久久波多野结衣| 中文字幕欧美在线| 欧美成人在线直播| 欧美精品一区二区在线播放| xvideos成人免费中文版| 国产精品永久在线| 中文字幕第一页亚洲| 亚洲免费一级视频| 亚洲小说区图片| 婷婷精品在线| 精品电影一区| 一区二区三区高清视频在线观看| 日本午夜精品一区二区三区电影| 丁香婷婷综合激情五月色| 亚洲一区二区三区自拍| 日韩欧美国产午夜精品| 韩国精品美女www爽爽爽视频| 日本高清久久一区二区三区| 国产欧美日韩91| 欧美福利精品| 尤蜜粉嫩av国产一区二区三区| 一本色道久久加勒比88综合| 国产视频二区在线观看| 超碰在线99| 久久精品论坛| 亚洲性色视频| 国内一区二区视频| 国产女主播一区| 色综合久久综合| 亚洲人成在线免费观看| 欧美一区第一页| 欧美精品亚洲| 成人黄色激情网站| 老司机在线永久免费观看| 午夜精品久久久久久毛片| 99精品综合| 91免费国产在线| 欧美区在线观看| 欧美大片免费观看| 麻豆免费精品视频| 国产欧美一区二区在线播放| 色综合久久88色综合天天| 国产最新精品| 亚洲精品第一| 毛片在线网址| 亚洲成a人片| 欧州一区二区三区| 成人线上播放| caoporn成人| 国产三级精品三级在线观看国产| 韩国女主播一区二区三区| 一区二区免费不卡在线| 国产精品jizz在线观看老狼| 欧美另类老女人| 亚洲成人在线网| 一区二区三区高清| 99re这里只有精品视频首页| 99久久夜色精品国产亚洲96| 国产麻豆精品| 欧美一区二区视频| a天堂中文在线官网| 欧美日韩欧美| 五月激激激综合网色播| 秋霞综合在线视频| 台湾色综合娱乐中文网| 伊人成综合网yiren22| 奇米777国产一区国产二区| 亚洲综合色婷婷在线观看| 欧美最新精品| 乱亲女h秽乱长久久久| 欧美大片网址| 国产a亚洲精品| 午夜久久黄色| 国产剧情一区二区三区| 精品一区二区综合| 欧美亚洲丝袜传媒另类| 日本高清一区| 在线观看国产麻豆| 二区三区精品| 欧美午夜不卡影院在线观看完整版免费| 日韩激情av在线| 中文字幕一区二区三区色视频| 欧美性xxxxx极品少妇| h1515四虎成人| 精品福利电影| 最好看的中文字幕久久| 亚洲аv电影天堂网| 日韩免费在线播放| 日本阿v视频在线观看| 高清免费电影在线观看| 伊人久久大香线蕉无限次| 精久久久久久久久久久| 午夜亚洲国产au精品一区二区| 这里精品视频免费| 丁香六月激情婷婷| 深夜爽爽视频| 日本大片在线观看| 国产福利在线免费观看| 第一sis亚洲原创| 精品久久久久久亚洲精品| 国产女大学生av| 亚洲一区二区三区四区的| 久久久青草青青国产亚洲免观| 黑人精品欧美一区二区蜜桃| 亚洲深夜福利| 一区精品久久| 狠狠色丁香久久综合频道| 99久热在线精品视频| 国产最新视频在线| 日本 国产 欧美色综合| 欧美国产1区2区| 欧美探花视频资源| 欧美一区二三区| 欧美成人精品免费| 国产最新视频在线| 亚洲日本va午夜在线电影| 日韩成人一级大片| 欧美在线观看你懂的| 国产精品1234| 中文字幕欧美日韩一区二区| 亚洲小说区图片区情欲小说| 日韩av毛片| 国产95亚洲| 国产亚洲精品久久久久婷婷瑜伽| 国产乱码一区二区三区| 性欧美video高清bbw| 超碰97成人| 视频在线观看国产精品| 亚洲欧洲成人精品av97| 欧美成人精品高清在线播放| 精品国产一区二区三区久久久狼| 精品国产福利| 成人在线免费观看av| 欧美国产日韩电影| 久久99高清| 国产成人精品在线看| 日韩精品在线一区| 91po在线观看91精品国产性色| 亚洲国产精品视频一区| 在线激情小视频| 捆绑变态av一区二区三区| 欧美体内she精视频| 久久99久久99精品| 成人动态视频| 精品女厕一区二区三区| 大片在线观看网站免费收看| jizz久久精品永久免费| 91爱爱小视频k| 亚洲国产精品成人| 欧美人xxxxx| 91成人短视频| 日韩电影免费在线| 麻豆传媒一区| 久久精品免费观看| 男人添女人下部高潮视频在观看| 91免费看视频| 日韩中文在线不卡| 国产精品av一区二区三区| 丝袜美腿精品国产二区| 激情小说一区| 91青青草免费在线看| 麻豆精品在线看| 国产人妻777人伦精品hd| 国产精品麻豆视频| 国产尤物视频在线| 亚洲人成在线免费观看| 视频在线亚洲| 日韩精品在线观看一区| 久久久pmvav| 国产精品理论片在线观看| 亚洲国产精品www| 精品视频一区二区三区在线观看| 国产精品一区三区| 色偷偷av亚洲男人的天堂| 神马久久影视大全| 欧美激情欧美| 51精品国自产在线| 最新av网址在线观看| 美女一级全黄| www.-级毛片线天内射视视| 久久影院模特热| 好操啊在线观看免费视频| 亚洲欧美成aⅴ人在线观看| 国产亚洲精品美女久久久| 日本高清在线观看视频| 日韩欧美亚洲国产精品字幕久久久 |