我有多个不可读的pdf,我想将它们转换成可读的pdf。我尝试了图像处理和tesseract来获取文本但我的结果不是很准确,因此我想改进我的结果。在通过PDF到PDF转换工具的过程中,我发现了一个在线转换器,它将不可读的pdf转换为可读的pdf,而不会对生成的pdf进行任何更改。我在这里附上了两个pdf。我想知道这个过程吗?任何人都可以解释一下这样做的方法吗? Orignal Image
https://drive.google.com/file/d/1Y9RMmNBQumtQNT2gB7zSmiW-jXHkD-cl/view?usp=sharing
答案 0 :(得分:1)
首先,我猜你的意思是可搜索的 PDF,不可读的PDF(我经常犯同样的拼写错误;)
您可以使用Tesseract在本地将扫描的PDF转换为searchable PDFs,或使用免费的OCR.space searchable pdf ocr API在线将扫描的PDF转换为http://guides.library.illinois.edu/c.php?g=347520&p=4121426。
Tesseract:
tesseract imagename outputbase [-1 lang] [-psm pagesegmode] [configfile...]
有关详细信息,请参阅{{3}}