我想知道为特定类型的文档训练Tesseract(文本类型/ TIFF等)的最佳方法是什么,具有以下特点:
目前我使用标准训练数据,我检测整个文本,并用一些正则表达式推断代码。 没关系,但我有时会遇到错误,例如:
0 / O
L / I / 1
请有人知道一些"技巧"提高精度?
谢谢!
答案 0 :(得分:4)
在Tesseract的训练部分,你必须手动制作一个文件,以便指定引擎,以指定不明确的字符。
有关更多信息,请查看" unicharambigs" Tesseract documentation的一部分。
最诚挚的问候。