国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<form id="al3c2"><button id="al3c2"></button></form>

<noscript id="al3c2"><pre id="al3c2"></pre></noscript>

<tr id="al3c2"></tr>

<code id="al3c2"></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

實用腳本！Python 提取 PDF 指定內容生成新文件！

作者：佚名 2021-07-27 15:20:47

但是很多時候，我們并不會預知希望提取的頁號，而是希望將包含指定內容的頁面提取合并為新PDF，本文就以兩個真實需求為例進行講解。

大家好，我是早起。

在之前的「Python辦公自動化」案專題中，我們已經介紹了如何有選擇的提取某些頁面進行合并。

但是很多時候，我們并不會預知希望提取的頁號，而是希望將包含指定內容的頁面提取合并為新PDF，本文就以兩個真實需求為例進行講解。

01. 需求描述

數據是一份有286頁的上市公司公開年報PDF，大致如下：

現在需要利用 Python 完成以下兩個需求：

需求一：提取所有包含戰略二字的頁面并合并新PDF

需求二：提取所有包含圖片的頁面，并分別保存為 PDF 文件

02. 前置知識和邏輯梳理

2.1 PyPDF2 模塊實現合并

PyPDF2 導入模塊的代碼常常是：

from PyPDF2 import PdfFileReader, PdfFileWriter

這里導入了兩個方法：

PdfFileReader 可以理解為讀取器
PdfFileWriter 可以理解為寫入器

利用 PyPDF2 實現合并運用的一下邏輯：

讀取器將所有pdf讀取一遍
讀取器將讀取的內容交給寫入器
寫入器統一輸出到一個新pdf

隱含知識點：讀取器只能將讀取的內容一頁一頁交給寫入器

2.2 獲取與添加頁面

之前我們的推文中提到這兩個代碼，下面列出作為復習：

.getPage 獲取特定頁
.addPage 添加特定頁

2.3 圖片和文字的處理

要實現本文的需求還要做到很重要的一個判斷：確定頁面中有無包含的文字或圖片

判斷是否包含特定的文字比較簡單，遍歷每一頁的時候都將包含的文本抽提出，做字符串層面的判斷即可，代碼思路：

利用 pdfplumber 打開PDF 文件
獲取指定的頁，或者遍歷每一頁
利用 .extract_text() 方法提取當前頁的文字
判斷 “戰略” 是否在提取的文字中

判斷是否包含圖片，思路和上面是類似的，但方法不同。圖片考慮用正則的方法識別，用 fitz 和 re 配合，具體見下文代碼

03. 代碼實現

3.1 需求一的實現

首先來完成需求一的任務，導入需要用到的庫：讀取寫入PDF文件的 PyPDF2 以及抽提文本的 pdfplumber

from PyPDF2 import PdfFileReader, PdfFileWriter  
import pdfplumber

指定文件所在的路徑，同時初始化寫入器，將文件交給讀取器：

path = r'C:\xxxxxx'  
pdf_writer = PdfFileWriter()  
pdf_reader = PdfFileReader(path + r'\公司年報.PDF')

以上下文管理器形式通過 pdfplumber 打開文件，同時用 .getNumPages 獲取讀取器的最大頁利于遍歷每一頁來抽提文字：

with pdfplumber.open(path + r'\公司年報.PDF') as pdf:  
    for i in range(pdf_reader.getNumPages()):  
        page = pdf.pages[i]  
        print(page.extract_text())

我們抽提文字的目的是用來判斷，將符合要求的頁碼作為讀取器 .getPage 的參數，最后用 .addPage 交給寫入器：

with pdfplumber.open(path + r'\公司年報.PDF') as pdf:  
    for i in range(pdf_reader.getNumPages()):  
        page = pdf.pages[i]  
        print(page.extract_text()) 
        if '戰略' in page.extract_text():  
            pdf_writer.addPage(pdf_reader.getPage(i))  
            print(i + 1, page.extract_text())

完成識別后讓寫入器輸出為需要的文件名：

with open(path + r'\new_公司年報.pdf', 'wb') as out:  
    pdf_writer.write(out)

至此，我們就完成了包含特定文字內容頁面的提取，并整合成一個PDF。所有的頁面均包含“戰略”二字：

需求一完整代碼如下，感興趣的讀者可以自行研究。

from PyPDF2 import PdfFileReader, PdfFileWriter  
import pdfplumber  
path = r'C:\xxx'  
pdf_writer = PdfFileWriter()  
pdf_reader = PdfFileReader(path + r'\公司年報.PDF')  
with pdfplumber.open(path + r'\公司年報.PDF') as pdf:  
    for i in range(pdf_reader.getNumPages()):  
        page = pdf.pages[i]  
        print(page.extract_text())  
        if '戰略' in page.extract_text():  
            pdf_writer.addPage(pdf_reader.getPage(i))  
            print(i + 1, page.extract_text()) 
with open(path + r'\new_公司年報1.pdf', 'wb') as out:  
    pdf_writer.write(out)

3.2 需求二的實現

接下來完成需求二的任務。首先導入需要的庫：

from PyPDF2 import PdfFileReader, PdfFileWriter  
import fitz  
import re  
import os

指定文件所在的路徑：

path = r'C:\xxxxxx'

正則識別圖片的部分不細講，之前的推文已經介紹過，我們直接看代碼：

page_lst = []  
checkImg = r"/Subtype(?= */Image)"  
pdf = fitz.open(path + r'\公司年報.PDF')  
lenXREF = pdf._getXrefLength()  
for i in range(lenXREF):  
    text = pdf._getXrefString(i)  
    isImage = re.search(checkImg, text)  
    if isImage:  
        page_lst.append(i)  
print(page_lst)

獲取到所有包含圖片的頁面后，再結合讀取器和寫入器的配合就能完成新 PDF 的產生。注意本需求是所有圖片單獨輸出，因此獲取到頁面后交給寫入器直接輸出成文件：

pdf_reader = PdfFileReader(path + r'\公司年報.PDF')  
for page in page_lst:  
    pdf_writer = PdfFileWriter()  
    pdf_writer.addPage(pdf_reader.getPage(page))  
    with open(path + r'\公司年報_{}.pdf'.format(page + 1), 'wb') as out:  
        pdf_writer.write(out)

至此也完成了第二個需求。需要說明的是目前沒有非常完美提取PDF圖片的方法，本案例介紹的方法識別圖片也并不穩定。讀者可以利用自己的數據多做嘗試。完整代碼如下：

from PyPDF2 import PdfFileReader, PdfFileWriter  
import fitz  
import re  
import os  
path = r'C:\xxx'  
page_lst = []  
checkImg = r"/Subtype(?= */Image)"  
pdf = fitz.open(path + r'\公司年報.PDF')  
lenXREF = pdf._getXrefLength()  
for i in range(lenXREF):  
    text = pdf._getXrefString(i)  
    isImage = re.search(checkImg, text)  
    if isImage:  
        page_lst.append(i)  
print(page_lst)  
pdf_reader = PdfFileReader(path + r'\公司年報.PDF')  
for page in page_lst:  
    pdf_writer = PdfFileWriter()  
    pdf_writer.addPage(pdf_reader.getPage(page))  
    with open(path + r'\公司年報_{}.pdf'.format(page + 1), 'wb') as out:  
        pdf_writer.write(out)

實現這兩個單個需求后，就可以將相關代碼封裝并結合os等模塊實現批量操作，解放雙手。

責任編輯：龐桂玉來源： Python編程

Python PDF文件

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

91成人看片片| 国产精品国产三级国产在线观看| 大桥未久一区二区三区| 欧美成人vps| 日本不卡视频在线| 超碰在线资源| 亚洲一区二区三区在线观看视频| 亚洲国产精品视频在线观看 | 成人综合婷婷国产精品久久免费| 中文字幕21页在线看| 在线视频91| 亚洲天堂男人的天堂| 成人av电影在线观看| 成人51免费| 九色porny蝌蚪视频在线观看| 欧洲精品毛片网站| 精品国产成人在线| 国内在线观看一区二区三区| 黄视频网站在线看| 美女黄色片网站| 日韩在线小视频| 中文字幕亚洲欧美在线不卡| 成人在线国产| 国产无套粉嫩白浆在线2022年| 欧美一区二区综合| 中文字幕亚洲一区二区三区| 中文乱码免费一区二区| 欧美激情理论| 97超碰资源站在线观看| 香港三级日本三级a视频| 久久久久久18| 色婷婷久久一区二区三区麻豆| 日本vs亚洲vs韩国一区三区| 999精品嫩草久久久久久99| 手机福利视频欧美| 日本一区二区三区视频免费看| 一区二区欧美亚洲| 一区二区三区蜜桃| 久久国产精品久久久久久电车| 国产成人精品一区二三区在线观看 | 日韩福利电影在线观看| 国产a亚洲精品| 欧美承认网站| 日韩av高清| 久久av.com| 日本丶国产丶欧美色综合| 久久精品国产亚洲一区二区三区| 999久久久久久久久6666| 欧美日韩在线精品一区二区三区激情综| 日产中文字幕在线精品一区| 久久夜色精品国产| 日韩欧美国产激情| 国产一区二区三区精品欧美日韩一区二区三区 | 国产乱码一区二区三区| 麻豆一区二区麻豆免费观看| jizz在线免费观看| 日韩网址在线观看| av一区二区在线看| 久久色免费在线视频| 色嗨嗨av一区二区三区| 成人免费观看视频| 在线精品国产| 91麻豆精品一二三区在线| 免费一级在线观看播放网址| 精品人妻人人做人人爽| 成人观看高清在线观看免费| 亚洲欧美激情一区| 日韩欧美中文第一页| 99久久精品费精品国产一区二区| 亚洲影视一区二区三区| 少妇高潮一区二区三区99| 成人精品一区二区| 欧美日韩国产一区| 国产伦精品一区二区三区免费视频| 久久国产精品久久国产精品| 制服丝袜亚洲播放| 亚洲男人的天堂一区二区| 国产尤物一区二区在线| 一区二区电影在线观看| 国产精品亚洲欧美日韩一区在线| 久久bbxx| 色老板亚洲精品一区| 91黄色在线看| 久久久久久精| 国产精品久久二区| 久久精品夜夜夜夜夜久久| 欧美电影在线免费观看| 亚洲精品国产高清久久伦理二区| 国产美女精品一区二区三区| 亚洲视频电影在线| jizz性欧美23| 成人午夜视屏| 黄色片网站在线观看| 人成福利视频在线观看| 好男人www社区| 在线国产99| 国产在线精品一区二区三区| 国产成人免费91av在线| 久久不射电影网| 亚洲男人av在线| 欧美日韩成人综合| 亚洲国产精品久久久久婷婷884| 99久久综合国产精品| 日韩av高清在线观看| 欧美福利网址| 九九在线精品| 久久99成人| 精品免费av在线| 2021中文字幕在线| 黄色在线播放网站| 国产在线日本| 在线午夜视频| 国产一级激情| 午夜久久久精品| 欧美视频在线第一页| 偷拍视频一区二区| 久久精品人成| 国产精品二区二区三区| 91精品久久久久久久久久| 4438全国成人免费| 性色av一区二区三区红粉影视| 久久成人18免费网站| 在线丨暗呦小u女国产精品| 精品在线观看国产| 精品日韩在线一区| 日韩一区二区精品葵司在线| 欧美少妇性性性| 欧美最猛性xxxxx直播| 日韩欧美成人区| 欧美日韩在线影院| 偷拍与自拍一区| 婷婷亚洲久悠悠色悠在线播放| 一级特黄大欧美久久久| 欧美激情资源网| 国产日韩欧美麻豆| 久久精品一区蜜桃臀影院| www.视频一区| 91女人视频在线观看| 久久综合精品国产一区二区三区 | 免费成人进口网站| 亚洲精品高清视频| 日韩黄色影视| 日本成人看片网址| 日本一区视频在线观看| 欧美最大成人综合网| 亚洲福利av| 在线观看18视频网站| 日韩极品视频在线观看| 人人妻人人做人人爽| 免费毛片小视频| 北条麻妃视频在线| 国产色视频在线播放| 日本韩国福利视频| 中文字幕在线视频免费观看| 亚洲欧洲闷骚av少妇影院 | 欧美激情第一页xxx| 国模精品视频一区二区| 欧美一级bbbbb性bbbb喷潮片| 欧美中文在线字幕| 国产欧美日韩中文| 国产精品裸体一区二区三区| 日本午夜精品一区二区三区| 在线无限看免费粉色视频| 成人免费播放器| 伊人影院综合在线| 在线播放av更多| 欧美一区二区三区在线观看免费| 色噜噜狠狠狠综合欧洲色8| 亚洲妇女成熟| 青青在线精品| 色婷婷狠狠五月综合天色拍| 五月综合激情| 久久亚洲电影| 成人美女在线观看| 中文一区二区在线观看| 精品电影在线观看| 日韩午夜小视频| 一区三区二区视频| 91av中文字幕| 亚洲蜜桃在线| 在线中文资源天堂| 在线看av的网址| 国产精品电影| 日韩精品中文字幕吗一区二区| 国产一区不卡| 国产日韩1区| 成人99免费视频| 亚洲狠狠爱一区二区三区| 欧美一级高清片| 成年无码av片在线| 国产欧美日韩中文字幕| 欧美在线3区| 亚洲小说欧美另类社区| 久久久久久噜噜噜久久久精品| 亚洲一区av在线播放| 欧美一级成年大片在线观看| 天天操天天干天天综合网| 欧美草草影院在线视频| 色婷婷综合成人av| 国产欧美一区二区|

<mark id="lj9c4"><acronym id="lj9c4"></acronym></mark>

<nobr id="lj9c4"><strike id="lj9c4"></strike></nobr>