应用错误收集

时间：2014-09-29 22:31:28

标签： python pdf

我有两个pdf文件几乎相同，只是the first one有OCR文本而the other没有，并且它们有不同的压缩。

我想这样做的原因是因为第一个文件的OCRed文本中存在一些错误，并且该文件使用OCRed文本来覆盖相应的图像，这使我无法知道正确的文本是什么。这是第二个文件可以帮助我的方式。

我想

所以我想知道是否有一个Python模块可以将OCRed文本层从第一个文件移动到第二个文件，同时从第一个文件中删除OCRed文本层？

如果没有，哪些语言可能有这样的库？

谢谢！

答案 0 :(得分：1)

查看pdfminer;它不是一个用户友好的API，但您应该能够导航PDF结构并删除阻碍文本。您可以回答具体问题。

但如果只是隐藏OCR的问题，如果你在Acrobat中打开文件，你可以隐藏它; IIRC它可以选择只显示OCR，只显示背景，或两者兼而有之。