使tesseract只识别数字

时间:2012-07-03 04:02:59

标签: python ocr tesseract

我正在尝试改进我用来读取我正在使用的某个图像的布局的OCR编程。现在,我希望我的OCR编程只识别数字0-9。

我试图按照问题解决方案:

Limit characters tesseract is looking for

但我陷入了必须将tesseract称为:

的部分
tesseract input.tif output nobatch letters  

这是怎么回事?

4 个答案:

答案 0 :(得分:5)

我使用python,wit tesseract 3有同样的问题 假设有更多读者可以这样做。

从这里开始:https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits

在这里: https://github.com/madmaze/pytesseract/blob/27fed535bf1eb665ec991313841b177336b50f61/src/pytesseract.py#L91

我成功使用:

  

pytesseract.image_to_string(someimage,config =' outputbase digits')

答案 1 :(得分:4)

此问题已在Tesseract FAQ

上得到解答

以下是如何让tesseract只识别数字:

Tesseract 2 - 在调用Init函数之前或将其放在名为tessdata / configs / digits的文本文件中:

tessedit_char_whitelist 0123456789

然后您的命令行变为:

tesseract image.tif outputbase nobatch digits

Tesseract 3 - 已创建数字配置文件,因此只需运行如下的tesseract命令:

tesseract imagename outputbase digits

答案 2 :(得分:3)

前段时间我在SO中发布了一些有关tesseract的内容:请参阅Tesseract OCR Library - Learning Font。特别值得link to tesseract training,它会告诉你如何限制你的角色并描述你的含糊之处。

答案 3 :(得分:1)

这是用于在命令行上运行tesseract的命令。

要获得更好的答案,我们需要知道您是在命令行还是作为库运行tesseract。