使用多重tiff进行Tesseract训练

时间:2016-06-26 09:04:51

标签: tesseract

如果我使用多重tiff训练Tesseract,盒子文件怎么样?

更准确地说:盒子文件的Y坐标如何对应于页面中的Y坐标?

1 个答案:

答案 0 :(得分:1)

框文件中的最后一个第6列表示从零开始的页码。

https://github.com/tesseract-ocr/tesseract/wiki/Make-Box-Files

更新

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

  

每个字体应放在一个多页tiff和盒子文件中   可以修改以指定每个字符后的页码   该坐标。因此,可以任意大量的训练数据   为任何给定的字体创建,允许大型培训   字符集语言。

即使你可以拥有你想要的大型训练文本,也可能导致不必要的大图像,从而减慢训练速度。