加快tesseract

时间:2011-05-02 15:20:28

标签: performance pdf imagemagick tesseract

我一直在linux上使用tesseract(Ver 3)从扫描的pdf文件中提取文本。 问题是整个过程缓慢,非常缓慢。 例如,提取此页面(http://www.a-pdf.com/scan-paper/a-pdf-scan-paper-doc.pdf)20页文档需要514秒(8+分钟)

转换pdf我用的Image Magick转换应用程序。 低于我使用的set命令。

convert -density 288 src.pdf -colorspace Gray -depth 8 -alpha off tmp.tif

tesseract tmp.tif out.txt

请注意,需要288 dpi,否则tesseract完全无法从我测试的扫描文件中提取文本。

有没有人知道如何在不影响结果质量的情况下加快速度?

1 个答案:

答案 0 :(得分:0)

尝试使用VietOCR查看是否可以根据需要生成更快的结果。如果安装了Ghostscript,它可以接受PDF。