培训Tesseract 3.02的最佳方法

时间:2014-11-27 11:55:11

标签: ocr tesseract

我想知道为特定类型的文档训练Tesseract(文本类型/ TIFF等)的最佳方法是什么,具有以下特点:

  • 文件的结构和正文始终相同
  • 唯一改变的是5个字母数字代码(这是真正需要检测的重要事项!)
  • 部分代码为粗体

目前我使用标准训练数据,我检测整个文本,并用一些正则表达式推断代码。 没关系,但我有时会遇到错误,例如:

0 / O

L / I / 1

请有人知道一些"技巧"提高精度?

谢谢!

1 个答案:

答案 0 :(得分:4)

在Tesseract的训练部分,你必须手动制作一个文件,以便指定引擎,以指定不明确的字符。

有关更多信息,请查看" unicharambigs" Tesseract documentation的一部分。

最诚挚的问候。