Tesseract - OCR问题与打字机样式字体

时间:2015-04-08 12:34:34

标签: android .net ocr tesseract

我们正在使用Tesseract.NET(以及Android版本)来识别和提取文档数据。它在Arial和Cambria字体方面表现得非常好,但现在我们必须识别这样的文档:

enter image description here

Tesseract无法识别它。绝对没有(除了右上角的大尺寸序列号)。

我们试图训练它,但是 - 也许这是我们的错 - 它仍然不稳定。

我们能做什么?

(顺便说一句,国家办事处使用该字体,我们无法将其作为真实类型或其他字体格式。

1 个答案:

答案 0 :(得分:2)

在当前形式中,OCR工具很难识别任何字母。

  • Serif字体难以出现。
  • 信件非常接近。有些人加入了。
  • 字典没有任何帮助。

您可以通过以下方式改进结果:

  • 由于这看起来像车辆登记证书,您应该能够预测感兴趣的文本字符串的位置,然后将它们分开。
  • 从而使用-psm=7 or 8选项(假设单行或单词)。
  • 由于某些字符串似乎只是数字,因此您可以使用digits参数帮助验证。
  • 对于字母数字字符串,可能有助于减少字典修剪(或完全删除dawg文件。)
  • 如果像'ETZ'或'MZ'这样的字符串是缩写词,你也可以用这些字符串构建一个字典。
  • 减少黄色和绿色也是您可以测试的(简单)选项。
  • 使用条形码而不是尝试使用字符串。

对于tesseract问题,如果您指定使用的版本,它总是有帮助的,如果您进行图像预处理,则提供已处理输入的示例图像。