我正在尝试改进我用来读取我正在使用的某个图像的布局的OCR编程。现在,我希望我的OCR编程只识别数字0-9。
我试图按照问题解决方案:
Limit characters tesseract is looking for
但我陷入了必须将tesseract称为:
的部分tesseract input.tif output nobatch letters
这是怎么回事?
答案 0 :(得分:5)
我使用python,wit tesseract 3有同样的问题 假设有更多读者可以这样做。
从这里开始:https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
我成功使用:
pytesseract.image_to_string(someimage,config =' outputbase digits')
答案 1 :(得分:4)
此问题已在Tesseract FAQ
上得到解答以下是如何让tesseract只识别数字:
Tesseract 2 - 在调用Init函数之前或将其放在名为tessdata / configs / digits的文本文件中:
tessedit_char_whitelist 0123456789
然后您的命令行变为:
tesseract image.tif outputbase nobatch digits
Tesseract 3 - 已创建数字配置文件,因此只需运行如下的tesseract命令:
tesseract imagename outputbase digits
答案 2 :(得分:3)
前段时间我在SO中发布了一些有关tesseract的内容:请参阅Tesseract OCR Library - Learning Font。特别值得link to tesseract training,它会告诉你如何限制你的角色并描述你的含糊之处。
答案 3 :(得分:1)
这是用于在命令行上运行tesseract的命令。
要获得更好的答案,我们需要知道您是在命令行还是作为库运行tesseract。