我们正在使用Tesseract.NET(以及Android版本)来识别和提取文档数据。它在Arial和Cambria字体方面表现得非常好,但现在我们必须识别这样的文档:
Tesseract无法识别它。绝对没有(除了右上角的大尺寸序列号)。
我们试图训练它,但是 - 也许这是我们的错 - 它仍然不稳定。
我们能做什么?
(顺便说一句,国家办事处使用该字体,我们无法将其作为真实类型或其他字体格式。
答案 0 :(得分:2)
在当前形式中,OCR工具很难识别任何字母。
您可以通过以下方式改进结果:
-psm=7 or 8
选项(假设单行或单词)。 digits
参数帮助验证。对于tesseract问题,如果您指定使用的版本,它总是有帮助的,如果您进行图像预处理,则提供已处理输入的示例图像。