如何训练tesseract只识别数字

时间:2013-10-29 09:53:23

标签: image image-processing ocr tesseract

我有一些产品标签样本,仅包含数字。但是我设法处理这些图像,以便我可以使用这些图像来识别数字。我使用英语训练的数据文件,但结果非常糟糕。有没有办法可以使用模板图像训练数据集。

我已经参考了培训tesseract的文档,但我无法使用图像进行培训。

但是在获得了盒子文件之后我怎样才能制作出eng.traineddata。

有人可以帮帮我吗。

这是产品标记http://imgur.com/hNNlX9g

的裁剪原始图像

这是产品标记http://imgur.com/Kzxtu0M

的已处理图像

2 个答案:

答案 0 :(得分:0)

您可以尝试设置要识别的字符白名单(在您的情况下为数字)。该参数称为tessedit_char_whitelist。老实说结果可能会有所不同。

答案 1 :(得分:0)

如果您拥有受过训练的数据集,则只能使用白名单。如果要快速获得结果,请使用Tesseract 3.x,应该有很多训练有素的支持白名单的列表(效果很棒)。

我本人使用Tesseract 4以及训练有素的数据,该数据在以下选项中非常有用: -l位数--psm 10

有关此数据集的链接,请参见此帖子:Can not find Tesseract 4.0 tessdata only for Numbers