Question

我正在尝试改进我用来读取我正在使用的某个图像的布局的OCR编程。现在，我希望我的OCR编程只识别数字0-9。

我试图按照问题解决方案：

但我陷入了必须将tesseract称为：

的部分

tesseract input.tif output nobatch letters

这是怎么回事？

Answer 1

我使用python，wit tesseract 3有同样的问题假设有更多读者可以这样做。

我成功使用：

pytesseract.image_to_string（someimage，config =＆＃39; outputbase digits＆＃39;）

Answer 2

此问题已在Tesseract FAQ

上得到解答

以下是如何让tesseract只识别数字：

Tesseract 2 - 在调用Init函数之前或将其放在名为tessdata / configs / digits的文本文件中：

tessedit_char_whitelist 0123456789

然后您的命令行变为：

tesseract image.tif outputbase nobatch digits

Tesseract 3 - 已创建数字配置文件，因此只需运行如下的tesseract命令：

tesseract imagename outputbase digits

Answer 3

前段时间我在SO中发布了一些有关tesseract的内容：请参阅Tesseract OCR Library - Learning Font。特别值得link to tesseract training，它会告诉你如何限制你的角色并描述你的含糊之处。

Answer 4

这是用于在命令行上运行tesseract的命令。

要获得更好的答案，我们需要知道您是在命令行还是作为库运行tesseract。