应用错误收集

经过数小时的反复试验后，我终于为我想要阅读的字体生成了我的训练数据。我正在尝试解码使用OpenCV进行预处理并且目前正在尝试训练Tesseract读取字体的验证码。

我有训练图片：

它们从中提取的图像由大量预处理图像组成，如下所示：

虽然我在搜索后产生的当前traindata仍然不准确，但我无法找到有关如何实际训练tesseract的足够信息。我可以为同一个字母添加多个方框吗？如有两个大写A ..等等（10套字母和数字）有助于使OCR更准确？

编辑：我一直在Windows OS上使用tesseract v3.05dev

EDIT2：我已经为每个字母/数字制作了盒子文件，每个字母的实际大小。（我也不确定我是否想在盒子内留一些空间）