我有这样的文件输入(只有数字但多种字体类型)。所以,如果我想使用Tesseract来训练数据。我应该在一个tiff文件或一个tiff文件中的多种字体类型中创建一组字体类型?
更好的是,请给我一些提示。谢谢你的帮助。
答案 0 :(得分:1)
每个训练图像中有一种字体样式。 Tesseract Training Wiki声明如下:
训练数据应按字体分组。理想情况下,所有样本 单个字体应该放在一个tiff文件中,但这可能是 多页tiff(如果你安装了libtiff或leptonica),那么 单个字体的总训练数据可以是许多页面和许多10 成千上万的角色,允许训练大字符集 语言
不要混合图像文件中的内容(在单个.tr文件中为
精确。)这将导致在聚类时删除功能
导致识别错误。