国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

十大PDF解析工具在不同文檔類別中的比較研究 原創

發布于 2025-4-7 06:31
瀏覽
0收藏

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區十大PDF解析工具總結

PDF解析對于包括文檔分類、信息提取和檢索在內的多種自然語言處理任務至關重要,尤其是RAG的背景下。盡管存在各種PDF解析工具,但它們在不同文檔類型中的有效性仍缺乏充分研究,尤其是超出學術文檔范疇。通過使用DocLayNet數據集,比較10款流行的PDF解析工具在6種文檔類別中的表現,以填補這一空白。這些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdflum2、Unstructured、Tabula、Camelot以及基于深度學習的工具Nougat和Table Transformer(TATR)。

對于基于深度學習的相關技術方法,筆者在前期介紹了完整的技術鏈路,可以參考《??文檔智能專欄(點擊跳轉)??》

對于對pdf解析質量要求不高并且要求速度比較快的場景,基于規則引擎的相關pdf parser工具可以依舊滿足相關業務場景,那么該如何選擇pdf解析工具呢?

pdf解析的挑戰

  • 復雜性:PDF解析面臨多個挑戰,包括單詞識別、詞序保持、段落完整性以及表格提取等。這些挑戰要求解析工具能夠準確地識別和處理文檔中的各種元素。
  • 技術需求:PDF解析方法可以分為基于規則的方法和基于深度學習的方法。基于規則的方法通常在計算效率和部署速度上具有優勢,而基于學習的方法在處理復雜文檔時表現出色。

本文通過比較10種流行的PDF解析工具在6種不同文檔類別上的表現,提供對工具性能的全面評估。供參考。

評估方法

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

常見公開評測數據集

評測數據集

DocLayNet 是一個包含約80,000個文檔頁面的大型數據集,文檔被標注為11種不同的元素(如腳注、公式、列表項、頁腳、頁眉、圖片、節頭、表格、文本和標題)。這些文檔分為六個不同的類別:財務報告、手冊、科學文章、法律法規、專利和政府招標。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

類別分布情況

文檔主要用英語標注(95%),少量用德語(2.5%)、法語(1%)和日語(1%)。為了確保標注的高質量和可靠性,大約7,059個文檔進行了雙重標注,1,591個文檔進行了三重標注。

評估指標

并使用多種評估指標進行比較,包括F1分數、BLEU分數和局部對齊分數。

在文檔中,評估策略特別關注于文本提取的質量,尤其是當涉及到復雜的文檔結構和內容時。以下是如何結合具體的公式和評估指標來詳細講解評估策略:

文本提取的評估策略

1.Levenshtein 相似性

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

2.F1 分數

3.BLEU 分數

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

4.局部對齊分數

局部對齊分數用于評估文本提取的整體質量,特別是在處理復雜布局和段落結構時。局部對齊通過尋找兩個字符串中最相似的子串來實現,使用匹配得分、不匹配和間隙懲罰來計算相似性。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

表格檢測評價指標

使用交并比(IoU)來比較解析器提取的表格與GT表格的相似性。如果解析器不提供邊界框信息,則使用Jaccard系數計算檢測的精確度和召回率。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

評測工具

工具名稱

功能

技術

輸出格式

特點

PyPDF

提取文本、圖像和元數據

基于規則 (RB)

TXT

成熟的純 Python 庫,處理多種 PDF 操作

pdfminer.six

提取文本、圖像、目錄、字體大小

基于規則

TXT、HTML、hOCR、JPG

多功能,支持 CJK 語言和垂直書寫

PDFPlumber

提取文本和表格

基于規則 (基于 pdfminer)

TXT、HTML、hOCR、JPG

提供可視化調試工具,提取過程便捷

PyMuPDF

提取文本、表格和圖像

基于規則 (MuPDF),可選 OCR

TXT、HTML、SVG、JSON

Python 綁定,處理復雜文檔布局

pypdfium2

提取文本

基于規則

TXT

輕量級庫,專注文本提取

Unstructured

預處理和攝取圖像及文本文檔

基于規則,支持 OCR

TXT

支持元素級文本和表格提取

Tabula

提取表格

基于規則

DataFrame、CSV、JSON

Python 包裝器,使用 tabula-java

Camelot

提取表格

基于規則

DataFrame、CSV、JSON、HTML

靈活配置,支持流模式和格子模式

Nougat

提取文本

基于 Transformer

Markdown

深度學習模型,專為學術文檔訓練

Table Transformer (TATR)

檢測表格

基于 Transformer

圖像

對象檢測模型,訓練于 PubTables-1M 等

評測結論

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

6中文檔類別中對PDF解析庫進行了全面比較

  • 文本提取結論 在財務、招標、法律法規和手冊類別中,大多數工具表現較好,PyMuPDF和pypdfium在這些類別中表現尤為突出。在科學和專利類別中,所有工具的表現均有所下降。PyMuPDF和pypdfium在專利類別中表現相對較好,但科學類別仍然是一個挑戰。Nougat作為一個基于視覺變換器的模型,在科學文檔的文本提取中表現出色。Nougat在科學文檔中表現優于所有基于規則的工具。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區


  • 表格檢測結論 評估了四種基于規則的PDF表格提取工具(Camelot、pdfplumber、PyMuPDF、Tabula)和一個基于Transformer的模型(TATR)在表格檢測任務中的表現。規則工具在特定文檔類型中表現良好,但在其他類別中表現不佳。Camelot在政府招標類別中表現最佳,Tabula在手冊、科學和專利類別中表現較好。TATR在所有類別中表現出較高的召回率和一致性。在科學、財務和招標類別中,TATR的召回率較高,顯示出其在處理復雜表格結構時的優勢。
  • 十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

總結

其實,全文看下來,這個評測的粒度還是比較粗的,但是其中的對于基于規則的pdf parser工具結論還是值得看一看的。在具體的業務場景中,選擇合適的解析工具需要考慮文檔類型和具體任務的需求。

參考文獻:A Comparative Study of PDF Parsing Tools Across Diverse Document Categories,https://arxiv.org/pdf/2410.09871v2


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/5mItOr1bBD7CIb-5k2kB6A??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-7 06:31:37修改
收藏
回復
舉報
回復
相關推薦
久久精品视频亚洲| 国产精品视频免费在线观看| freemovies性欧美| 国产日韩欧美激情| 亚洲 欧美 综合 另类 中字| 精品一区二区三区免费| 日本一区二区不卡高清更新| 黄色免费成人| 91精品网站| 先锋资源久久| 国产欧美精品在线| 91亚洲国产| 国产精品美腿一区在线看| 九九在线高清精品视频| 九九九热精品免费视频观看网站| 天天免费亚洲黑人免费| 亚洲人免费视频| xx欧美xxx| 一本一道久久a久久精品逆3p| 91精品论坛| 在线观看亚洲区| 国产一区二区三区黄网站| 久久99国产综合精品女同| 欧美freesex8一10精品| 日本中文字幕久久看| 97在线精品| 久久久久久久有限公司| 极品美女销魂一区二区三区| 成年人看的毛片| 国产精品系列在线| 亚洲社区在线| 欧美日韩情趣电影| 日本在线观看大片免费视频| 日韩国产一区三区| 激情五月综合婷婷| 国产精品福利在线观看| 亚洲欧洲日本mm| 亚洲国产精品综合| 久久影音资源网| 天天草夜夜草| 欧美日韩亚洲综合在线 欧美亚洲特黄一级 | 国产日韩欧美成人| 影音先锋久久| 色中文字幕在线观看| 99re亚洲国产精品| 国产高潮av| 日韩视频在线你懂得| 天堂久久午夜av| 国产精品免费久久久| 日韩经典中文字幕一区| 亚洲一区二区蜜桃| 欧美午夜激情视频| 欧美成人a交片免费看| 91国在线精品国内播放| 影音先锋一区| 欧美aⅴ在线观看| 日韩欧美在线字幕| 成人性生活视频| 国产成人欧美在线观看| 日韩精品亚洲专区| 污污网站免费观看| 欧美一区二区三区四区视频 | 欧美激情777| 亚洲一二区在线| 亚洲欧美日韩国产手机在线 | 欧美午夜精品久久久久久久| 国产粉嫩在线观看| 国产精品69久久久久| 精品一区二区三区在线播放| 久久综合色播| 亚洲欧美精品一区二区| 精品久久久久久久久久久aⅴ| 在线视频欧美一区| 丰满岳妇乱一区二区三区| 国产精品亲子伦av一区二区三区| 国产日韩综合一区二区性色av| 韩国三级在线一区| 青青青草网站免费视频在线观看| 一区二区三区精品99久久| 欧美激情视频一区二区三区在线播放 | 亚洲精品美女久久久久| 黄色不卡一区| 丝袜人妻一区二区三区| 日韩欧美在线一区| 亚洲精品观看| 在线观看日韩片| 欧美视频国产精品| 亚洲日本一区二区三区在线| 亚洲欧美日韩综合一区| 福利微拍一区二区| 成人看片爽爽爽| 日韩精品免费一区| 制服.丝袜.亚洲.中文.综合| 亚洲区小说区| 成人在线看视频| 日韩精品视频中文在线观看| 亚洲理论在线| 蜜桃视频网站www| 一区二区在线视频| 男女视频一区二区| 九色在线观看| 国产精品欧美一区二区三区奶水 | 欧美精品一级二级三级| 蜜桃一区二区| 手机视频在线观看| 欧美h视频在线观看| 日韩在线观看精品| 欧美国产先锋| 男女视频在线看| 亚洲精品一区二区久| 99综合精品| 欧洲视频在线免费观看| 欧美一区二区三区免费视 | 午夜精品一区二区三区视频免费看| 麻豆中文一区二区| 国产黄网站在线观看| 超碰97国产在线| 午夜精品成人在线| 在线一级成人| 成人免费淫片免费观看| 欧美老女人性视频| 91在线你懂得| 伊人久久精品| 欧美s码亚洲码精品m码| 中文字幕免费精品一区| www.欧美.com| 亚洲图片小说区| 老头吃奶性行交视频| 欧美激情中文字幕在线| 国产精品国产三级国产普通话99 | 日韩精品91亚洲二区在线观看| 日本福利在线| 欧美一级二级三级九九九| 欧美视频中文一区二区三区在线观看| 99久久99热这里只有精品| 欧美最顶级a∨艳星| 国产主播精品在线| 欧美日韩国产一区二区| 午夜精品久久久久99热蜜桃导演| 亚洲kkk444kkk在线观看| 国产精品一区=区| 岛国av在线不卡| 亚洲美女视频在线免费观看 | 欧美日韩国产免费一区二区三区 | 最美情侣韩剧在线播放| 亚洲影院色无极综合| 91国在线观看| 久久aⅴ乱码一区二区三区| wwww亚洲| av无码久久久久久不卡网站| 久久亚洲国产精品成人av秋霞| 久久一区二区三区四区| 国内精品麻豆美女在线播放视频| 黄色av免费| 国产在线资源一区| 亚洲图片在区色| 日韩毛片一二三区| 伊人久久大香线蕉av超碰演员| gogo久久| 五月婷婷激情久久| 成人午夜高潮视频| 精品捆绑美女sm三区 | 中文字幕欧美日韩一区二区三区| 亚洲香蕉av| 中文字幕在线影视资源| 国产伦精品一区二区三区视频黑人 | 中文字幕av一区 二区| 欧美精品一区二区三区精品| 国产福利在线看| 综合色婷婷一区二区亚洲欧美国产| 在线播放精品一区二区三区| 国产精品女主播av| 亚洲网站啪啪| 91国内外精品自在线播放| 欧美日韩一区二区三区69堂| 成人综合色站| 日韩在线免费视频| 精品久久久久久中文字幕| 美女视频免费一区| 色88888久久久久久影院| 黄色网在线免费看| 中文字幕在线观看第三页| 国产精品播放| 久久精品国产一区| 欧美性20hd另类| 国产91色综合久久免费分享| 国内精品久久久久久久影视简单| 里番在线播放| 成年免费网站| 一本—道久久a久久精品蜜桃| 国产99视频在线观看| 亚洲国产成人精品电影| 一区二区三区视频在线看| 精品一区二区三区免费视频| 欧美1级片网站| 日韩av首页| 国产区在线看| 欧美白嫩的18sex少妇| 少妇高潮毛片色欲ava片| 国产富婆一区二区三区|