提高速度tesseract OCR

时间:2015-03-01 12:45:01

标签: python performance ocr tesseract

我正在使用pytesseract v.0.1.5和tesseract v.3.02.02来分析大量的jpeg图像。质量非常好,但速度有点问题。

在我的设置(i5-4460,8GB Ram)中,OCR需要大约25秒才能处理100张图像(1900x250)。在同一台机器上,Matlab 2014b OCR也基于谷歌的tesseract代码,速度提高了30%。

是否有修改OCR的设置(例如删​​除不需要的词典)以使其更快?我的文字只包含英文,数字和特殊字符/-

我通过标准方式使用命令:

pytesseract.image_to_string(im)

非常感谢,

哈利

1 个答案:

答案 0 :(得分:1)

pytesseract是tesseract cli的薄包装器,如果你真的不需要python api,只需调用plain tesseract。使用包装器会增加开销。多少我不知道,根据您的平台,您有不同的分析工具来衡量它。在linux上有perf:perf record yourcommand来记录,perf report来查看结果。

从代码中可以看出,您可以将语言限制为仅英语,您可以再次进行分析以查看它是否确实有所不同。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128