我正在使用pytesseract v.0.1.5和tesseract v.3.02.02来分析大量的jpeg图像。质量非常好,但速度有点问题。
在我的设置(i5-4460,8GB Ram)中,OCR需要大约25秒才能处理100张图像(1900x250)。在同一台机器上,Matlab 2014b OCR也基于谷歌的tesseract代码,速度提高了30%。
是否有修改OCR的设置(例如删除不需要的词典)以使其更快?我的文字只包含英文,数字和特殊字符/
和-
。
我通过标准方式使用命令:
pytesseract.image_to_string(im)
非常感谢,
哈利
答案 0 :(得分:1)
pytesseract是tesseract cli的薄包装器,如果你真的不需要python api,只需调用plain tesseract。使用包装器会增加开销。多少我不知道,根据您的平台,您有不同的分析工具来衡量它。在linux上有perf:perf record yourcommand
来记录,perf report
来查看结果。
从代码中可以看出,您可以将语言限制为仅英语,您可以再次进行分析以查看它是否确实有所不同。 https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py#L128