我有两个pdf文件几乎相同,只是the first one有OCR文本而the other没有,并且它们有不同的压缩。
我想这样做的原因是因为第一个文件的OCRed文本中存在一些错误,并且该文件使用OCRed文本来覆盖相应的图像,这使我无法知道正确的文本是什么。这是第二个文件可以帮助我的方式。
我想
使第一个文件显示图像,隐藏OCRed文本而不覆盖图像。
或者,将OCRed文本从第一个文件移动到第二个文件。
或者,从第一个文件中删除OCRed文本,然后重新对其进行OCR,因为Adobe Acrobat无法重新OCR一个带有OCR文本的pdf文件。
所以我想知道是否有一个Python模块可以将OCRed文本层从第一个文件移动到第二个文件,同时从第一个文件中删除OCRed文本层?
如果没有,哪些语言可能有这样的库?
谢谢!
答案 0 :(得分:1)
查看pdfminer;它不是一个用户友好的API,但您应该能够导航PDF结构并删除阻碍文本。您可以回答具体问题。
但如果只是隐藏OCR的问题,如果你在Acrobat中打开文件,你可以隐藏它; IIRC它可以选择只显示OCR,只显示背景,或两者兼而有之。