tesseract区域识别失败。
我需要处理个人文档的扫描图像,例如身份证,社会保险卡, 其他识别特殊文件等... 所需信息的位置精确,但位置取决于文档类型。
因此,根据文档类型,我创建了一个特定的uzn文件,其中包含位置和尺寸 所需的字段,然后我使用选项psm 4处理图像,希望仅获取所需的字段。
从一个调用到另一个调用的结果是非常可变的: 如果我反复调用引擎,传递相同的图像和相同的参数, 有时引擎返回正确的信息,有时只返回某些字段。
似乎没有可识别的规则。
我试图通过几种方式指定区域:
引擎似乎正常工作的唯一情况是,当我指定一个包含所有我需要的字段的区域时, 但是分析输出变得更加困难,因为每个字段可以包含一个词以上, 并且在我需要的字段之间可能有不需要的字段,因此结果不容易解析。
我正在使用Centos上的tesseract版本4.0.0-beta1执行这些测试。
tesseract 4.0.0-beta.1 Leptonica-1.75.3 libjpeg 6b(libjpeg-turbo 1.2.90):libpng 1.5.13:libtiff 4.0.3:zlib 1.2.7:libwebp 0.3.0
Linux版本3.10.0-862.2.3.el7.x86_64(builder@kbuilder.dev.centos.org)
有什么建议吗? 问候。
毛里齐奥