OCR .NET推荐

时间:2009-04-08 08:39:52

标签: .net ocr

嗨,我刚刚在.NET中尝试了一个OCR组件,结果非常不准确。以前还有其他人走过这条路吗?你能为我推荐一条路径,为我节省评估大量产生不理想结果的组件的时间。

任何建议都非常感谢。我不介意买进或编码自己。无论什么效果最好,而且具有成本效益。

感谢

4 个答案:

答案 0 :(得分:1)

我们在项目中使用了Abby Fine Reader SDK。它附带了一个COM对象,您可以在.Net应用程序中使用它。发动机的成功就足够了。

答案 1 :(得分:0)

您是否尝试过Office附带的MODI组件?在CodeProject上查看this article

答案 2 :(得分:0)

ABBYY的组件相当昂贵。我已经评估了Pegasus ImagXpress和Atalasoft DotImage,虽然我发现整页OCR上的DotImage更准确,但ImagXpress更好地阅读了难以识别的某些小部分文本。 我建议您尝试两者的演示版本,看看哪种最适合您的需求。

答案 3 :(得分:0)

有关替代引擎的信息,请参阅https://stackoverflow.com/a/18070183/852208

您的准确性问题可能与图书馆本身有关。但是,它更可能是您正在使用的图像源。请考虑以下tips

  

文字注意事项

     
      
  • 不应对某些材料进行标准OCR。例如,不应尝试使用默认设置的OCR   在1850年以前出版的大多数文本中。对于某些语言(例如,   德国)截止日期可能更晚。在尝试创建之前   通过OCR转录这些材料,详细分析和   通常需要通过实验来判断习惯之间的权衡   OCR和键盘选项。
  •   
  • 必须以RGB模式扫描较旧和变色的文档,以捕获所有图像数据,并最大限度地提高OCR准确度。
  •   
  • 低对比度文档可能导致OCR不良。
  •   
  • 打字稿导致OCR比打印类型差;字体面和尺寸的不一致使用会降低OCR的准确性。
  •   
  • 原始字体大小低于6点可以限制OCR,但扫描图像的分辨率增加到600 dpi和   使用灰度可以提高OCR输出。
  •   
  • 手写文件无法准确识别。
  •   
     

影响OCR准确性的扫描注意事项包括:

     
      
  • 建议的OCR精度最佳扫描分辨率为300 dpi。更高的分辨率不一定会带来更好的结果   准确性可以减慢OCR处理时间。以下决议   300 dpi可能会影响OCR结果的质量和准确性。
  •   
  • 过高或过低的亮度设置可能会对OCR精度产生不利影响。中等亮度值为50%   适合大多数情况。
  •   
  • 初始扫描的直线度会影响OCR质量;弯曲的文字行会产生不良结果。
  •   
  • 必须以RGB模式扫描较旧和变色的文档,以捕获所有图像数据,并最大限度地提高OCR准确度。
  •   
  • 图像增强功能,例如对比度调整和非锐化遮罩,尚未显示出能够显着提高OCR的准确性。
  •