应用错误收集

时间：2018-02-22 17:04:03

标签： python-3.x adobe pdfbox apache-tika pdfminer

我注意到当我使用OCR将扫描的PDF文档转换为文本时，在这种情况下是Adobe Acrobat Pro，根据我提取数据的方式，我得到的输出非常不同。

在上面的照片中 - 您可以看到一段已被OCR打印成质量相当高的文本的PDF。如果我在Adobe中选择并将其复制为单词或txt文档，则它会完全粘贴。

但是，如果我使用Adobe将其导出为富文本格式，请使用Python的PDFminer或Python Apache Tika然后我会得到上面的照片，你可以看到它完全混淆了它。这些方法之间的提取结果非常一致 - 基本上所有3个方法都以完全相同的方式混杂。

你们是否有任何想法为什么OCR的PDF可以很好地复制到文本编辑器但是以这种奇怪的方式提取？

谢谢！

此致真

答案 0 :(得分：0)

所以最终为我工作的是使用Apache-Tika进行初始解析，然后在少数没有工作的情况下，将它们传递给PyPDF2。我的理论是PyPDF2使用不同的解析机制，不像Tika那样依赖于PDF的根，这似乎已经在一些OCR文档中被破坏了。

不确定最初的原因，但这是我的解决方案。