Adobe Acrobat / Python PDF输出变化

时间:2018-02-22 17:04:03

标签: python-3.x adobe pdfbox apache-tika pdfminer

我注意到当我使用OCR将扫描的PDF文档转换为文本时,在这种情况下是Adobe Acrobat Pro,根据我提取数据的方式,我得到的输出非常不同。

enter image description here

在上面的照片中 - 您可以看到一段已被OCR打印成质量相当高的文本的PDF。如果我在Adobe中选择并将其复制为单词或txt文档,则它会完全粘贴。

enter image description here

但是,如果我使用Adobe将其导出为富文本格式,请使用Python的PDFminer或Python Apache Tika然后我会得到上面的照片,你可以看到它完全混淆了它。这些方法之间的提取结果非常一致 - 基本上所有3个方法都以完全相同的方式混杂。

你们是否有任何想法为什么OCR的PDF可以很好地复制到文本编辑器但是以这种奇怪的方式提取?

谢谢!

此致 真

1 个答案:

答案 0 :(得分:0)

所以最终为我工作的是使用Apache-Tika进行初始解析,然后在少数没有工作的情况下,将它们传递给PyPDF2。我的理论是PyPDF2使用不同的解析机制,不像Tika那样依赖于PDF的根,这似乎已经在一些OCR文档中被破坏了。

不确定最初的原因,但这是我的解决方案。