Tesseract区域识别失败

时间:2019-01-29 08:00:42

标签: tesseract

tesseract区域识别失败。

我需要处理个人文档的扫描图像,例如身份证,社会保险卡, 其他识别特殊文件等... 所需信息的位置精确,但位置取决于文档类型。

因此,根据文档类型,我创建了一个特定的uzn文件,其中包含位置和尺寸 所需的字段,然后我使用选项psm 4处理图像,希望仅获取所需的字段。

从一个调用到另一个调用的结果是非常可变的: 如果我反复调用引擎,传递相同的图像和相同的参数, 有时引擎返回正确的信息,有时只返回某些字段。

似乎没有可识别的规则。

我试图通过几种方式指定区域:

  • 通过指定在实际字段周围留有少量空间的区域。
  • 通过指定尽可能窄的区域。
  • 通过指定一个单一区域,其中包含我需要的所有字段。

引擎似乎正常工作的唯一情况是,当我指定一个包含所有我需要的字段的区域时, 但是分析输出变得更加困难,因为每个字段可以包含一个词以上, 并且在我需要的字段之间可能有不需要的字段,因此结果不容易解析。

我正在使用Centos上的tesseract版本4.0.0-beta1执行这些测试。

tesseract 4.0.0-beta.1  Leptonica-1.75.3   libjpeg 6b(libjpeg-turbo 1.2.90):libpng 1.5.13:libtiff 4.0.3:zlib 1.2.7:libwebp 0.3.0

Linux版本3.10.0-862.2.3.el7.x86_64(builder@kbuilder.dev.centos.org)

有什么建议吗? 问候。

毛里齐奥

0 个答案:

没有答案