所有数字都在透明背景的png文件中提供。如果我从中创建一个盒子文件,训练它等等 - 一切正常!
现在问题,同样的情况,但我想基于以下图像训练tesseract:
您可以看到数字与位置完全相同,依此类推。与图像1的唯一区别是我使用黄色背景,从现在开始没有任何工作了。我创建了一个盒子文件,我设置了与第一张图像相同的位置:
0 5 4 20 22 0
1 27 4 38 21 0
2 48 4 60 22 0
3 71 3 83 22 0
4 94 5 109 22 0
5 119 5 131 22 0
6 143 5 157 22 0
7 172 5 184 22 0
8 197 5 211 23 0
9 224 5 238 22 0
然后我训练了这个盒子,但是生成的.tr文件完全是空的,我没有停在这里并完成所有其他步骤。生成的字体无法使用!
所以我的问题是如何训练tesseract识别这些数字,无论它们使用哪种背景?
我使用ImageMagick预处理图像,我找到了一个适用于各种背景的命令。所以我想为这个创建的图像训练tesseract,但它并没有像我想的那样工作...... 首先,我创建了一些盒子文件,其中大多数都是空的。好吧,我用一个网站来组织角色位置,我花了很多时间完美地完成裁剪!之后我创建了生成的.tr文件,还做了其他的东西来训练tesseract。
最后,我得到了#34; trainingdata",我将文件移到" tessdata" tesseract目录并使用它应该使用它:
tesseract example.jpg output -l mg
(我称之为新字体" mg")
好吧,无论它不能识别所有或大部分!我打开这个帖子寻求帮助,直到现在还没有人真正知道如何做到这一点,遗憾的是....请帮帮我。
我使用和创建的整个tesseract培训文件,你可以在这里找到:
Tesseract training directory(因为没有压缩/未压缩 - >目录的所有文件的视图)
答案 0 :(得分:1)
您可以将任何彩色图像更改为二进制图像,然后在其上使用tesseract,无论您使用何种颜色,您都将获得相同的结果。