在Tesseract wiki中,标记为tif / box文件的格式在培训中使用的文件名为[lang].[fontname].exp[num]
。 fontname
是否会影响培训?这仅仅是为了记账?
在我的特定情况下,我有大量不同字体的文档图像(我不知道其中包含哪些字体)。我可以对我手动标记的每个文档使用eng.idontknow.exp[num]
吗?或者由于某种原因这会弄乱培训?提前谢谢!
答案 0 :(得分:0)
最好匹配真实字体(以帮助可能的OCR后分析),但它可以是一些任意字体名称。