培训" tesseract ocr"预定义的字体图像

时间:2014-06-05 15:11:14

标签: pattern-matching ascii ocr tesseract training-data

我正在尝试从图像中识别ASCII字符串。我正在使用Tesseract3库,但我有一些正确识别的问题,所以我需要用新的字符集(具体)训练它。 我已经发现了这个HOW-TO:TrainingTesseract3,但由于我的图像测试集的简单性,本教程有一些我不需要的不必要的过程。 我的图像数据集仅包含 1个衬垫,其中每个ASCII字符在所有图像中都是相同(无旋转,无缩放),但具有可变距离(仅水平) )在行中的字符之间。

如何使用字体图像训练识别算法?

1 个答案:

答案 0 :(得分:4)

先生只是得到你想要训练的特定字体然后在记事本中写字母或数字(我认为5个代表/字母)保存为tiff文件。如果您想训练它,请使用https://code.google.com/p/serak-tesseract-trainer/http://vietocr.sourceforge.net/training.html

中的任何一个