应用错误收集

提高速度tesseract OCR

时间：2015-03-01 12:45:01

标签： python performance ocr tesseract

我正在使用pytesseract v.0.1.5和tesseract v.3.02.02来分析大量的jpeg图像。质量非常好，但速度有点问题。

在我的设置（i5-4460,8GB Ram）中，OCR需要大约25秒才能处理100张图像（1900x250）。在同一台机器上，Matlab 2014b OCR也基于谷歌的tesseract代码，速度提高了30％。

是否有修改OCR的设置（例如删除不需要的词典）以使其更快？我的文字只包含英文，数字和特殊字符/和-。

我通过标准方式使用命令：

pytesseract.image_to_string(im)

非常感谢，

哈利

1 个答案:

答案 0 :(得分：1)

pytesseract是tesseract cli的薄包装器，如果你真的不需要python api，只需调用plain tesseract。使用包装器会增加开销。多少我不知道，根据您的平台，您有不同的分析工具来衡量它。在linux上有perf：perf record yourcommand来记录，perf report来查看结果。

从代码中可以看出，您可以将语言限制为仅英语，您可以再次进行分析以查看它是否确实有所不同。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128