应用错误收集

Tesseract - OCR问题与打字机样式字体

时间：2015-04-08 12:34:34

标签： android .net ocr tesseract

我们正在使用Tesseract.NET（以及Android版本）来识别和提取文档数据。它在Arial和Cambria字体方面表现得非常好，但现在我们必须识别这样的文档：

enter image description here

Tesseract无法识别它。绝对没有（除了右上角的大尺寸序列号）。

我们试图训练它，但是 - 也许这是我们的错 - 它仍然不稳定。

我们能做什么？

（顺便说一句，国家办事处使用该字体，我们无法将其作为真实类型或其他字体格式。

1 个答案:

答案 0 :(得分：2)

在当前形式中，OCR工具很难识别任何字母。

Serif字体难以出现。
信件非常接近。有些人加入了。
字典没有任何帮助。

您可以通过以下方式改进结果：

由于这看起来像车辆登记证书，您应该能够预测感兴趣的文本字符串的位置，然后将它们分开。
从而使用-psm=7 or 8选项（假设单行或单词）。
由于某些字符串似乎只是数字，因此您可以使用digits参数帮助验证。
对于字母数字字符串，可能有助于减少字典修剪（或完全删除dawg文件。）
如果像'ETZ'或'MZ'这样的字符串是缩写词，你也可以用这些字符串构建一个字典。
减少黄色和绿色也是您可以测试的（简单）选项。
使用条形码而不是尝试使用字符串。

对于tesseract问题，如果您指定使用的版本，它总是有帮助的，如果您进行图像预处理，则提供已处理输入的示例图像。