Tesseract v4.0.0-beta.4.20180912。
我正在使用ImageMagicK将pdf转换为tiff
magick.exe convert -density 200 -trim test.pdf -depth 8 -strip -background white -alpha off -quality 100 -compress zip test.TIF
然后使用tesseract通过以下命令行将其用于OCR:
tesseract test.TIF test PDF
尝试在本地计算机上处理64页pdf(2,733KB)需花费 300 秒,而在我们的服务器上则需要花费 836 秒。
我的本地计算机是3.50Ghz,16 GB Ram,Windows 7 服务器具有2.30Ghz,32 GB Ram,WindowServer2012
有什么我可以做来加快速度的。在本地计算机上,我每页处理4.7秒。如果可能的话,我试图将其接近每页1秒。希望我能弄清楚如何在我们的服务器上更快地处理此问题。