Python模块可以从一个pdf文件中删除OCRed文本层并将其移动到另一个文件层?

时间:2014-09-29 22:31:28

标签: python pdf

我有两个pdf文件几乎相同,只是the first one有OCR文本而the other没有,并且它们有不同的压缩。

我想这样做的原因是因为第一个文件的OCRed文本中存在一些错误,并且该文件使用OCRed文本来覆盖相应的图像,这使我无法知道正确的文本是什么。这是第二个文件可以帮助我的方式。

我想

  • 使第一个文件显示图像,隐藏OCRed文本而不覆盖图像。

  • 或者,将OCRed文本从第一个文件移动到第二个文件。

  • 或者,从第一个文件中删除OCRed文本,然后重新对其进行OCR,因为Adobe Acrobat无法重新OCR一个带有OCR文本的pdf文件。

所以我想知道是否有一个Python模块可以将OCRed文本层从第一个文件移动到第二个文件,同时从第一个文件中删除OCRed文本层?

如果没有,哪些语言可能有这样的库?

谢谢!

1 个答案:

答案 0 :(得分:1)

查看pdfminer;它不是一个用户友好的API,但您应该能够导航PDF结构并删除阻碍文本。您可以回答具体问题。

但如果只是隐藏OCR的问题,如果你在Acrobat中打开文件,你可以隐藏它; IIRC它可以选择只显示OCR,只显示背景,或两者兼而有之。