Tesseract培训数据

时间:2016-08-02 17:45:05

标签: java ocr tesseract

经过数小时的反复试验后,我终于为我想要阅读的字体生成了我的训练数据。 我正在尝试解码使用OpenCV进行预处理并且目前正在尝试训练Tesseract读取字体的验证码。

我有训练图片:

enter image description here

它们从中提取的图像由大量预处理图像组成,如下所示:

enter image description here

虽然我在搜索后产生的当前traindata仍然不准确,但我无法找到有关如何实际训练tesseract的足够信息。我可以为同一个字母添加多个方框吗?如有两个大写A ..等等(10套字母和数字)有助于使OCR更准确?

编辑:我一直在Windows OS上使用tesseract v3.05dev

EDIT2:我已经为每个字母/数字制作了盒子文件,每个字母的实际大小。 (我也不确定我是否想在盒子内留一些空间)

0 个答案:

没有答案