国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

告別「復(fù)制+粘貼」,基于深度學(xué)習(xí)的OCR,實(shí)現(xiàn)PDF轉(zhuǎn)文本

新聞 深度學(xué)習(xí)
最近,來自 K1 Digital 的高級機(jī)器學(xué)習(xí)工程師 Lucas Soares 一直在嘗試通過使用 OCR(光學(xué)字符識別)自動轉(zhuǎn)錄 pdf 幻燈片,以便直接在 markdown 文件中操作它們的內(nèi)容,從而避免手動復(fù)制和粘貼 pdf 內(nèi)容,實(shí)現(xiàn)這一過程的自動化。

[[403226]]

傳統(tǒng)的講座通常伴隨著一組 pdf 幻燈片。一般來說,想要對此類講座做筆記,需要從 pdf 復(fù)制、粘貼很多內(nèi)容。

最近,來自 K1 Digital 的高級機(jī)器學(xué)習(xí)工程師 Lucas Soares 一直在嘗試通過使用 OCR(光學(xué)字符識別)自動轉(zhuǎn)錄 pdf 幻燈片,以便直接在 markdown 文件中操作它們的內(nèi)容,從而避免手動復(fù)制和粘貼 pdf 內(nèi)容,實(shí)現(xiàn)這一過程的自動化。

告別「復(fù)制+粘貼」,基于深度學(xué)習(xí)的OCR,實(shí)現(xiàn)PDF轉(zhuǎn)文本

左為項目作者 Lucas Soares。

項目地址:https://github.com/EnkrateiaLucca/ocr_for_transcribing_pdf_slides

為什么不使用傳統(tǒng)的 pdf 轉(zhuǎn)文本工具呢?

Lucas Soares 發(fā)現(xiàn)傳統(tǒng)工具往往會帶來更多的問題,需要花時間解決。他曾經(jīng)嘗試使用傳統(tǒng)的 Python 軟件包,但是遇到了很多問題(例如必須使用復(fù)雜的正則表達(dá)式模式解析最終輸出等),因此決定嘗試使用目標(biāo)檢測和 OCR 來解決。

基本過程可分為以下步驟:

  • 將 pdf 轉(zhuǎn)換為圖片;
  • 檢測和識別圖像中的文本;
  • 展示示例輸出。

基于深度學(xué)習(xí)的 OCR 將 pdf 轉(zhuǎn)錄為文本

將 pdf 轉(zhuǎn)換為圖像

Soares 使用的 pdf 幻燈片來自于 David Silver 的增強(qiáng)學(xué)習(xí)(參見以下 pdf 幻燈片地址)。使用「pdf2image」包將每張幻燈片轉(zhuǎn)換為 png 圖像格式。

告別「復(fù)制+粘貼」,基于深度學(xué)習(xí)的OCR,實(shí)現(xiàn)PDF轉(zhuǎn)文本

pdf 幻燈片示例。

地址:https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf

代碼如下: 

  1. from pdf2image import convert_from_path 
  2. from pdf2image.exceptions import ( 
  3.  PDFInfoNotInstalledError, 
  4.  PDFPageCountError, 
  5.  PDFSyntaxError 
  6.  
  7. pdf_path = "path/to/file/intro_RL_Lecture1.pdf" 
  8. images = convert_from_path(pdf_path) 
  9. for i, image in enumerate(images): 
  10.     fname = "image" + str(i) + ".png" 
  11.     image.save(fname, "PNG"

經(jīng)過處理后,所有的 pdf 幻燈片都轉(zhuǎn)換成 png 格式的圖像:

告別「復(fù)制+粘貼」,基于深度學(xué)習(xí)的OCR,實(shí)現(xiàn)PDF轉(zhuǎn)文本

檢測和識別圖像中的文本

為了檢測和識別 png 圖像中的文本,Soares 使用 ocr.pytorch 庫中的文本檢測器。按照說明下載模型并將模型保存在 checkpoints 文件夾中。

ocr.pytorch 庫地址:https://github.com/courao/ocr.pytorch

代碼如下: 

  1. # adapted from this source: https://github.com/courao/ocr.pytorch 
  2. %load_ext autoreload 
  3. %autoreload 2 
  4. import os 
  5. from ocr import ocr 
  6. import time 
  7. import shutil 
  8. import numpy as np 
  9. import pathlib 
  10. from PIL import Image 
  11. from glob import glob 
  12. import matplotlib.pyplot as plt 
  13. import seaborn as sns 
  14. sns.set() 
  15. import pytesseract 
  16.  
  17. def single_pic_proc(image_file): 
  18.     image = np.array(Image.open(image_file).convert('RGB')) 
  19.     result, image_framed = ocr(image) 
  20.     return result,image_framed 
  21.  
  22. image_files = glob('./input_images/*.*'
  23. result_dir = './output_images_with_boxes/' 
  24.  
  25. # If the output folder exists we will remove it and redo it. 
  26. if os.path.exists(result_dir): 
  27.     shutil.rmtree(result_dir) 
  28. os.mkdir(result_dir) 
  29.  
  30. for image_file in sorted(image_files): 
  31.     result, image_framed = single_pic_proc(image_file) # detecting and recognizing the text 
  32.     filename = pathlib.Path(image_file).name 
  33.     output_file = os.path.join(result_dir, image_file.split('/')[-1]) 
  34.     txt_file = os.path.join(result_dir, image_file.split('/')[-1].split('.')[0]+'.txt'
  35.     txt_f = open(txt_file, 'w'
  36.     Image.fromarray(image_framed).save(output_file) 
  37.     for key in result: 
  38.         txt_f.write(result[key][1]+'\n'
  39.     txt_f.close() 

設(shè)置輸入和輸出文件夾,接著遍歷所有輸入圖像(轉(zhuǎn)換后的 pdf 幻燈片),然后通過 single_pic_proc() 函數(shù)運(yùn)行 OCR 模塊中的檢測和識別模型,最后將輸出保存到輸出文件夾。

其中檢測繼承(inherit)了 Pytorch CTPN 模型,識別繼承了 Pytorch CRNN 模型,兩者都存在于 OCR 模塊中。

示例輸出

代碼如下: 

  1. import cv2 as cv 
  2.  
  3. output_dir = pathlib.Path("./output_images_with_boxes"
  4.  
  5. # image = cv.imread(str(np.random.choice(list(output_dir.iterdir()),1)[0])) 
  6. image = cv.imread(f"{output_dir}/image7.png"
  7. size_reshaped = (int(image.shape[1]),int(image.shape[0])) 
  8. image = cv.resize(image, size_reshaped) 
  9. cv.imshow("image", image) 
  10. cv.waitKey(0
  11. cv.destroyAllWindows() 

下圖左為原始 pdf 幻燈片,圖右為轉(zhuǎn)錄后的輸出文本,轉(zhuǎn)錄后的準(zhǔn)確率非常高。

告別「復(fù)制+粘貼」,基于深度學(xué)習(xí)的OCR,實(shí)現(xiàn)PDF轉(zhuǎn)文本

文本識別輸出如下: 

  1. filename = f"{output_dir}/image7.txt" 
  2. with open(filename, "r") as text: 
  3.     for line in text.readlines(): 
  4.         print(line.strip("\n")) 

通過上述方法,最終你可以得到一個非常強(qiáng)大的工具來轉(zhuǎn)錄各種文檔,從檢測和識別手寫筆記到檢測和識別照片中的隨機(jī)文本。擁有自己的 OCR 工具來處理一些文本內(nèi)容,這比依賴外部軟件來轉(zhuǎn)錄文檔要好的多。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-09-24 09:59:59

復(fù)制粘貼PythonPDF

2020-09-14 17:10:16

微信搜索移動應(yīng)用

2024-10-25 11:56:33

OCRVisRAGRAG

2017-05-22 13:15:45

TensorFlow深度學(xué)習(xí)

2024-08-29 08:23:22

EasyOCRSpring文字識別

2018-07-19 15:13:15

深度學(xué)習(xí)圖像

2017-05-12 16:25:44

深度學(xué)習(xí)圖像補(bǔ)全tensorflow

2025-12-03 06:40:00

2023-05-22 08:00:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2023-09-26 07:39:21

2018-08-03 09:42:01

人工智能深度學(xué)習(xí)人臉識別

2019-05-22 14:28:08

AI人工智能深度學(xué)習(xí)

2021-11-03 09:00:00

深度學(xué)習(xí)自然語言機(jī)器學(xué)習(xí)

2025-11-11 09:39:40

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2024-11-04 08:14:48

2024-12-03 09:59:00

2017-09-21 15:43:02

深度序列學(xué)習(xí)

2017-08-03 16:20:42

深度學(xué)習(xí)文本摘要遞歸神經(jīng)網(wǎng)絡(luò)

2020-10-17 09:03:06

使用JS創(chuàng)建復(fù)制&粘貼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

久久精品99国产| 男女视频在线观看免费| 亚洲精品mv| 蜜臀av性久久久久蜜臀aⅴ四虎| 国产精品热久久久久夜色精品三区| 国产一区二区三区高清在线观看| 永久域名在线精品| 色在线视频网| 男女视频一区二区| 亚洲精品在线三区| 亚洲欧洲精品一区| 香蕉伊大人中文在线观看| 国产在线国偷精品产拍免费yy| 日韩午夜激情电影| 色一情一乱一伦一区二区三区| 秋霞在线午夜| 久久91精品国产91久久小草 | 91精品久久久久久久久久另类 | 91.麻豆视频| 清纯唯美一区二区三区| av电影在线地址| 国产在线精品一区二区夜色| 国产亚洲一区二区精品| 免费观看国产精品视频| 日韩av综合| 亚洲人成在线播放网站岛国| 国产精品美女久久| 免费在线一级视频| 亚洲专区在线| 日韩风俗一区 二区| 亚洲精品蜜桃久久久久久| 日韩三区四区| 亚洲国产精品黑人久久久| 日韩免费观看高清| 桃花色综合影院| 午夜亚洲精品| 亚洲免费人成在线视频观看| 丰满爆乳一区二区三区| 欧美日韩导航| 五月激情综合网| 国产传媒一区二区| 国产高清在线a视频大全| 风流少妇一区二区| 久久久久久久91| 美女免费免费看网站| 五月婷婷六月综合| 91精品国产综合久久香蕉的特点 | 亚洲精品一二三四区| 91欧美精品午夜性色福利在线| av在线电影观看| 蜜臀av一区二区在线观看 | 精品久久久久99| www.国产在线播放| 999精品视频在这里| 亚洲v中文字幕| 久久久www免费人成黑人精品| 麻豆国产在线| 久久久国际精品| 国产免费观看久久黄| 老司机99精品99| 国产精品99久久久久久久女警| 欧美丰满少妇xxxxx| 中国在线观看免费国语版电影| 在线午夜精品| 国产亚洲精品一区二区| 少妇一级淫免费播放| 小小影院久久| 欧美精品一区二区三区在线| 亚洲乱码中文字幕久久孕妇黑人| 国产精品嫩草影院在线看| 欧美美女bb生活片| 黄色一级片黄色| 欧美日韩xxxx| 欧美一区二区观看视频| 水蜜桃色314在线观看| 欧美最新另类人妖| 日韩午夜在线播放| 国语对白做受xxxxx在线中国| 精品日韩在线| 日韩欧美一级在线播放| 成人毛片视频网站| 日韩精品1区| 亚洲精品一区二区三区在线观看| 国产男女无遮挡| 999视频精品| 亚洲精品国精品久久99热| 三年中国国语在线播放免费| 日韩欧美中字| 亚洲精品国产成人| 婷婷亚洲天堂| 亚洲综合国产| 欧美成人午夜激情| 青青草在线播放| 国产精品996| 国产精品久久不能| 美女日批视频在线观看| 国产精品人成在线观看免费| 国产在线欧美日韩| 国产电影一区| 欧美性大战久久久久久久 | 欧美日韩一区综合| 日本精品在线播放| 欧美性一级生活| 99热自拍偷拍| 欧美日韩国产色综合一二三四| 伊人伊成久久人综合网站| 影院免费视频| 久久激情五月激情| 人九九综合九九宗合| 久久一卡二卡| 亚洲青青青在线视频| 先锋影音亚洲资源| 欧美成a人免费观看久久| 91精品国产aⅴ一区二区| 手机在线免费观看毛片| 国产日韩欧美一区二区三区在线观看| 久久精品国产亚洲精品| 国产色在线 com| 久久综合五月天婷婷伊人| 国产精品久久久一区二区三区| 亚洲tv在线| 精品视频一区 二区 三区| 欧美精品无码一区二区三区| 在线亚洲激情| 97在线免费视频| 免费网站在线观看人| 一区二区在线观看av| 精品国产一区二区三区在线| 久久五月天小说| 亚洲最新在线视频| 国际av在线| 国产午夜精品久久久久久免费视 | 一区二区三区短视频| 亚洲国产日韩精品| 日本精品久久久久久久久久| 欧美涩涩网站| 日韩视频第一页| 日p在线观看| 亚洲欧洲三级电影| 国产又大又长又粗又黄| 久久久综合色| 久久视频在线观看免费| a级网站在线播放| 一区二区三区影院| 拔插拔插海外华人免费| 欧美成人69av| 久久久久久久久久久av| 超碰高清在线| 色婷婷av久久久久久久| 9久久婷婷国产综合精品性色 | 亚洲激情亚洲| 2021久久精品国产99国产精品| ****av在线网毛片| 黑丝美女久久久| 日韩视频免费在线播放| 蜜桃视频在线一区| 91日韩在线播放| 99亚洲乱人伦aⅴ精品| 亚洲成人动漫在线播放| 日本天堂影院在线视频| 中文一区二区完整视频在线观看| 在线视频不卡一区二区| 性欧美69xoxoxoxo| 国产69精品久久久久9999| 三级在线观看视频| 欧美性猛交xxxxxx富婆| 成人伦理视频网站| 成人aa视频在线观看| 日本精品一区二区| 999视频精品| 97在线观看视频国产| 福利精品在线| 亚洲精品在线观看网站| 男人的天堂在线免费视频| 中文字幕亚洲区| 我的公把我弄高潮了视频| 久久综合激情| 亚洲淫片在线视频| 日韩欧美ww| 久久精品国产亚洲一区二区| 激情aⅴ欧美一区二区欲海潮| 欧美三级三级三级爽爽爽| 羞羞网www| 中文字幕av在线一区二区三区| 人妻激情另类乱人伦人妻| 久久成人一区| 99九九电视剧免费观看| 精品色999| 午夜精品一区二区三区视频免费看| 91天天综合| 亚洲黄色在线观看| 黄色成人在线| 性久久久久久久久久久久| 国产又黄又猛又粗又爽的视频| 国产成人精品影院| 日韩欧美一区二区三区四区| 欧美日韩日本国产亚洲在线| 国产精品偷伦视频免费观看国产| 国产电影一区二区| 中文字幕在线精品|