Tesseract - 我应该怎么做多字体类型?

时间:2013-03-19 08:56:32

标签: windows image ocr tesseract

我有这样的文件输入(只有数字但多种字体类型)。所以,如果我想使用Tesseract来训练数据。我应该在一个tiff文件或一个tiff文件中的多种字体类型中创建一组字体类型?

enter image description here

更好的是,请给我一些提示。谢谢你的帮助。

1 个答案:

答案 0 :(得分:1)

每个训练图像中有一种字体样式。 Tesseract Training Wiki声明如下:

  • 训练数据应按字体分组。理想情况下,所有样本 单个字体应该放在一个tiff文件中,但这可能是 多页tiff(如果你安装了libtiff或leptonica),那么 单个字体的总训练数据可以是许多页面和许多10 成千上万的角色,允许训练大字符集 语言

  • 不要混合图像文件中的内容(在单个.tr文件中为
    精确。)这将导致在聚类时删除功能 导致识别错误。