c# - 简化的OCR使用不变的字体

简化的OCR使用不变的字体

时间：2011-12-22 17:51:37

标签： c# ocr

我正在开发一个需要更简单，更准确的OCR工具的项目

我的情景：

每周图像都具有相同的结构
我需要一个小区域，我需要从
我需要从
字体总是一样的（这是我可以更准确的地方）
图像没有其他选项，只有平面光栅化图像
核心软件使用C＃，因此最好使用CLI语言。
图像是300 dpi，因此有一个很好的工作基础

我会使用普通的OCR程序，但我知道如果不是完美的结果，我可以得到更准确的结果，因为它总是相同的字体。

那么，什么是好方法？我不想从头开始编写大量的工作，但我不想要一个经过预先培训的过于通用的OCR工具。我想用这一种字体训练它，这样就可以获得非常准确的结果。我也不想进行特征提取，分离出单词并找到字母等等。

3 个答案:

答案 0 :(得分：1)

我可能会使用OpenCV的机器学习（例如使用haar级联），除非角色的位置确实是完全静态的 - 在这种情况下，简单的比较可以做到这一点（例如，使用差异的绝对和来找到最佳匹配）

字体是否已修复？如果没有，你可以使用一种特殊的OCR字体来获取难以混淆的字符，即使在较差的图像上也是如此。

虽然，考虑到你说你想教它，你可能最适合机器学习。

答案 1 :(得分：0)

我会使用经济的OCR引擎，例如来自http://www.transym.com的TOCR。许可证费用非常便宜，OCR快速且非常准确，特别是如果您定义一个固定的矩形来提取并且没有背景噪音。在进行购买之前，您应下载试用版以测试结果。

当您设置自定义OCR引擎并对其进行培训时，您将花费的费用远远超过小额许可费用，您可能会发现结果更准确。

如果能够看到您想要OCR的图形或两个文本，那么我们就能够给出更准确的答案。

答案 2 :(得分：0)

听起来你应该寻找字段级别识别，在那里你不对整个图像执行OCR，但只指定了许多带坐标的字段。如果您正在计划商业软件并寻求企业准确性 - 请查看www.ocrsdk.com - 它是ABBYY最近推出的基于云的OCR SDK。它现在处于测试阶段，因此完全免费使用。它有一个很好的方法适合从文档中提取文本和C# sample codes。