Question

我有多个不可读的pdf，我想将它们转换成可读的pdf。我尝试了图像处理和tesseract来获取文本但我的结果不是很准确，因此我想改进我的结果。在通过PDF到PDF转换工具的过程中，我发现了一个在线转换器，它将不可读的pdf转换为可读的pdf，而不会对生成的pdf进行任何更改。我在这里附上了两个pdf。我想知道这个过程吗？任何人都可以解释一下这样做的方法吗？ Orignal Image

https://drive.google.com/file/d/1Y9RMmNBQumtQNT2gB7zSmiW-jXHkD-cl/view?usp=sharing

Answer 1

首先，我猜你的意思是可搜索的 PDF，不可读的PDF（我经常犯同样的拼写错误;）

您可以使用Tesseract在本地将扫描的PDF转换为searchable PDFs，或使用免费的OCR.space searchable pdf ocr API在线将扫描的PDF转换为http://guides.library.illinois.edu/c.php?g=347520&p=4121426。

Tesseract：

tesseract imagename outputbase [-1 lang] [-psm pagesegmode] [configfile...]

有关详细信息，请参阅{{3}}

如何使用python将不可读的pdf转换为可读的pdf？

1 个答案: