应用错误收集

Tesseract - 我应该怎么做多字体类型？

时间：2013-03-19 08:56:32

标签： windows image ocr tesseract

我有这样的文件输入（只有数字但多种字体类型）。所以，如果我想使用Tesseract来训练数据。我应该在一个tiff文件或一个tiff文件中的多种字体类型中创建一组字体类型？

enter image description here

更好的是，请给我一些提示。谢谢你的帮助。

1 个答案:

答案 0 :(得分：1)

每个训练图像中有一种字体样式。 Tesseract Training Wiki声明如下：

训练数据应按字体分组。理想情况下，所有样本单个字体应该放在一个tiff文件中，但这可能是多页tiff（如果你安装了libtiff或leptonica），那么单个字体的总训练数据可以是许多页面和许多10 成千上万的角色，允许训练大字符集语言
不要混合图像文件中的内容（在单个.tr文件中为
精确。）这将导致在聚类时删除功能导致识别错误。