简化的OCR使用不变的字体

时间:2011-12-22 17:51:37

标签: c# ocr

我正在开发一个需要更简单,更准确的OCR工具的项目

我的情景:

  • 每周图像都具有相同的结构
  • 我需要一个小区域,我需要从
  • 获取一个号码
  • 我需要从
  • 获取带连字符的文本的另一个小区域
  • 字体总是一样的(这是我可以更准确的地方)
  • 图像没有其他选项,只有平面光栅化图像
  • 核心软件使用C#,因此最好使用CLI语言。
  • 图像是300 dpi,因此有一个很好的工作基础

我会使用普通的OCR程序,但我知道如果不是完美的结果,我可以得到更准确的结果,因为它总是相同的字体。

那么,什么是好方法?我不想从头开始编写大量的工作,但我不想要一个经过预先培训的过于通用的OCR工具。我想用这一种字体训练它,这样就可以获得非常准确的结果。我也不想进行特征提取,分离出单词并找到字母等等。

3 个答案:

答案 0 :(得分:1)

我可能会使用OpenCV的机器学习(例如使用haar级联),除非角色的位置确实是完全静态的 - 在这种情况下,简单的比较可以做到这一点(例如,使用差异的绝对和来找到最佳匹配)

字体是否已修复?如果没有,你可以使用一种特殊的OCR字体来获取难以混淆的字符,即使在较差的图像上也是如此。

虽然,考虑到你说你想教它,你可能最适合机器学习。

答案 1 :(得分:0)

我会使用经济的OCR引擎,例如来自http://www.transym.com的TOCR。许可证费用非常便宜,OCR快速且非常准确,特别是如果您定义一个固定的矩形来提取并且没有背景噪音。在进行购买之前,您应下载试用版以测试结果。

当您设置自定义OCR引擎并对其进行培训时,您将花费的费用远远超过小额许可费用,您可能会发现结果更准确。

如果能够看到您想要OCR的图形或两个文本,那么我们就能够给出更准确的答案。

答案 2 :(得分:0)

听起来你应该寻找字段级别识别,在那里你不对整个图像执行OCR,但只指定了许多带坐标的字段。如果您正在计划商业软件并寻求企业准确性 - 请查看www.ocrsdk.com - 它是ABBYY最近推出的基于云的OCR SDK。它现在处于测试阶段,因此完全免费使用。它有一个很好的方法适合从文档中提取文本和C# sample codes