我一直在linux上使用tesseract(Ver 3)从扫描的pdf文件中提取文本。 问题是整个过程缓慢,非常缓慢。 例如,提取此页面(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf)20页文档需要514秒(8+分钟)
转换pdf我用的Image Magick转换应用程序。 低于我使用的set命令。
convert -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif
tesseract tmp.tif out.txt
请注意,需要288 dpi,否则tesseract完全无法从我测试的扫描文件中提取文本。
有没有人知道如何在不影响结果质量的情况下加快速度?