Tesseract混合“1”和“7”,尽管训练确切的字体

时间:2017-02-09 17:04:45

标签: tesseract

我使用tesseract从图像中获取文本,我只对数字感兴趣。我已经训练了tesseract并创建了一种新的语言,它是图像中的确切字体,训练数据只包括数字。在训练数据中,我还包括了图像中的每个可能值,1-5000是特定的,并且还创建了这些相同值的词表。然而它仍然混合了1和7,有时还混合了3和8.是否有人建议我是否应该重新训练或者在给予tesseract之前对图像进行一些处理?

1 个答案:

答案 0 :(得分:1)

  1. 确保您提供给tesseract的培训文本中至少有20个每个字符的实例。我提供至少6页相同的字体,以获得不错的训练样本量。
  2. 2.Tesseract文本识别还取决于图像质量。查看可以使用的可能的预处理算法:Improve Quality of Tesseract

    1. 查看number_dawg文件。修改它可以帮助识别数字。