Tesseract - 培训

时间:2015-11-11 15:22:45

标签: ocr tesseract

我正在尝试学习一些东西。

我正在使用jTessBoxEditor和Serak。

首先,我创建一些.txt,例如10 000个字符,并用一个空格分隔。我在TIFF / BOX生成器中使用它作为jTessBoxEditor的输入。这为我创建了盒子和.tiff图像。

现在我验证了这些盒子,我发现它们是正确的。所以我在Serak中使用它并训练tesseract,我创建了一些xxx.traineddata。

现在我想验证结果。所以我创建了一个小的.txt,例如100个字符用空格分隔,但所有都非常相似(文件包含类似5 S 5 S 0 O 2 Z等等)。现在我使用与学习相同的方法创建.tiff,所以我使用jTessBoxEditor,相同的字体,我生成新的.tiff文件。比在Serak我尝试OCR这个新的.tiff,结果是0与O混合,5与S混合等等。

我做错了什么?

1 个答案:

答案 0 :(得分:0)

您确定自己创建的新字体是否已进入.traineddate文件?您必须将字体添加到font-properties文件中,对字体运行unicharset_extractor,然后进行mftraining和cntraining,然后将所有内容组合在一起以获取生成的.traineddata文件。我遇到了类似的情况,我猜这很可能是错误是在.traineddata文件的创建中。在你的新字体出现后,tesseract应该没有问题确定你刚训练过的文件的字符是什么。