如何使用python将不可读的pdf转换为可读的pdf?

时间:2018-02-05 07:40:16

标签: image-processing pdf-generation ocr

我有多个不可读的pdf,我想将它们转换成可读的pdf。我尝试了图像处理和tesseract来获取文本但我的结果不是很准确,因此我想改进我的结果。在通过PDF到PDF转换工具的过程中,我发现了一个在线转换器,它将不可读的pdf转换为可读的pdf,而不会对生成的pdf进行任何更改。我在这里附上了两个pdf。我想知道这个过程吗?任何人都可以解释一下这样做的方法吗? Orignal Image

https://drive.google.com/file/d/1Y9RMmNBQumtQNT2gB7zSmiW-jXHkD-cl/view?usp=sharing

1 个答案:

答案 0 :(得分:1)

首先,我猜你的意思是可搜索的 PDF,不可读的PDF(我经常犯同样的拼写错误;)

您可以使用Tesseract在本地将扫描的PDF转换为searchable PDFs,或使用免费的OCR.space searchable pdf ocr API在线将扫描的PDF转换为http://guides.library.illinois.edu/c.php?g=347520&p=4121426

Tesseract:

tesseract imagename outputbase [-1 lang] [-psm pagesegmode] [configfile...]

有关详细信息,请参阅{{3}}