如何使用OCR获得100%的文本提取?

时间:2017-05-26 13:29:27

标签: ocr

使用GIT代码,我们从图像中提取文本。但发现了一些挑战

  1. 转换过程中很少有角色被遗漏,大多数缺失的角色都在开始。
    • 示例:提取状态 In Progress 时,只会将 n Progress 写入文件。
    • 如果状态为 Assigned ,则仅提取为 ssigned
  2. 某些文字的转换还有额外的空间
    • 提取事件编号 INC123456789 时,在文件中将其写为 INC1234 56789
  3. 在某些情况下,角色本身会发生变化
    • 示例事件图片包含带有文本 Google 的地图,当写入文件时,它被转换为 GooglA
  4. 任何面临类似问题的人?并知道如何获得100%的文本提取?

1 个答案:

答案 0 :(得分:0)

也许尝试编写自己的机器学习模型,或敢于编写自己的深度学习神经网络。

一个更简单的选择可能是尝试使用某种字典模型映射常见错误(最简单的例子是Levenshtein距离模型),其中:

  • 您会发现无效的字词(即不在字典中)。使用levenshtein distance找到最接近的单词:
    • 您在文档中预期的常用术语(似乎是合法的话
    • 字典中的常用字词(称为 bag of words
  • 替换这些字
  • 更复杂的(和可选的)方法是使用 ngram sentence correction 来纠正某些词组(例如。n ProgressIn Progress
  • 运行语法检查以将其置顶(最好在此步骤中使用API​​