我在java中创建了一个程序,它从扫描的tiff图像中读取字符,但准确性不是那么好。
如果我们更改文档中的手写内容,则结果会略有不同。 那么有没有训练tesseract-ocr的方法?
我也使用了jtessEditorBox但没有任何帮助。
答案 0 :(得分:0)
我建议你挖这个帖子: http://www.tuxrincon.com/blog/training-tesseract-ocr/
获取每个手写的图片。 在几张图片上使用“QT Box Editor”将字符与字符相关联。 然后给他们tesseract,以便使用“train.sh”脚本训练它(可以纠正它中的一些错误)。 我没有使用“train2.sh”,因为在我的情况下它似乎适得其反。 将所有handwritings traineddata文件添加到tesseract配置文件。 您可以更改“QT Box Editor”配置以使用其他语言设置手写内容。