如果我使用多重tiff训练Tesseract,盒子文件怎么样?
更准确地说:盒子文件的Y坐标如何对应于页面中的Y坐标?
答案 0 :(得分:1)
框文件中的最后一个第6列表示从零开始的页码。
https://github.com/tesseract-ocr/tesseract/wiki/Make-Box-Files
更新
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
每个字体应放在一个多页tiff和盒子文件中 可以修改以指定每个字符后的页码 该坐标。因此,可以任意大量的训练数据 为任何给定的字体创建,允许大型培训 字符集语言。
即使你可以拥有你想要的大型训练文本,也可能导致不必要的大图像,从而减慢训练速度。