在Tesseract盒子文件训练期间,我发现需要编写一个脚本来移动一些盒子。我打开一个盒子文件来确定哪个列对应于X / Y / W / H,并发现了第五列。 Tesseract wiki没有提供任何解释,并且" Make Box Files" section仅在第五列中包含零。我训练的文件包含其他符号。例如,这些是我找到的一些符号:[":,}' 4. *<& \; \ |]。这些是什么意思?
答案 0 :(得分:1)
如果我没记错的话,第五列是用于白名单的字符。这样,您可以为一个区域指定仅数字,而另一个用于文本。
Tesseract将仅识别特定区域的白名单中的符号。
答案 1 :(得分:1)
您可能意味着第六列或最后一列,它代表页码(请参阅Training wiki)。听起来你的盒子文件没有正确生成。