嗨,我刚刚在.NET中尝试了一个OCR组件,结果非常不准确。以前还有其他人走过这条路吗?你能为我推荐一条路径,为我节省评估大量产生不理想结果的组件的时间。
任何建议都非常感谢。我不介意买进或编码自己。无论什么效果最好,而且具有成本效益。
感谢
答案 0 :(得分:1)
我们在项目中使用了Abby Fine Reader SDK。它附带了一个COM对象,您可以在.Net应用程序中使用它。发动机的成功就足够了。
答案 1 :(得分:0)
您是否尝试过Office附带的MODI组件?在CodeProject上查看this article。
答案 2 :(得分:0)
ABBYY的组件相当昂贵。我已经评估了Pegasus ImagXpress和Atalasoft DotImage,虽然我发现整页OCR上的DotImage更准确,但ImagXpress更好地阅读了难以识别的某些小部分文本。 我建议您尝试两者的演示版本,看看哪种最适合您的需求。
答案 3 :(得分:0)
有关替代引擎的信息,请参阅https://stackoverflow.com/a/18070183/852208。
您的准确性问题可能与图书馆本身有关。但是,它更可能是您正在使用的图像源。请考虑以下tips:
文字注意事项
- 不应对某些材料进行标准OCR。例如,不应尝试使用默认设置的OCR 在1850年以前出版的大多数文本中。对于某些语言(例如, 德国)截止日期可能更晚。在尝试创建之前 通过OCR转录这些材料,详细分析和 通常需要通过实验来判断习惯之间的权衡 OCR和键盘选项。
- 必须以RGB模式扫描较旧和变色的文档,以捕获所有图像数据,并最大限度地提高OCR准确度。
- 低对比度文档可能导致OCR不良。
- 打字稿导致OCR比打印类型差;字体面和尺寸的不一致使用会降低OCR的准确性。
- 原始字体大小低于6点可以限制OCR,但扫描图像的分辨率增加到600 dpi和 使用灰度可以提高OCR输出。
- 手写文件无法准确识别。
影响OCR准确性的扫描注意事项包括:
- 建议的OCR精度最佳扫描分辨率为300 dpi。更高的分辨率不一定会带来更好的结果 准确性可以减慢OCR处理时间。以下决议 300 dpi可能会影响OCR结果的质量和准确性。
- 过高或过低的亮度设置可能会对OCR精度产生不利影响。中等亮度值为50% 适合大多数情况。
- 初始扫描的直线度会影响OCR质量;弯曲的文字行会产生不良结果。
- 必须以RGB模式扫描较旧和变色的文档,以捕获所有图像数据,并最大限度地提高OCR准确度。
- 图像增强功能,例如对比度调整和非锐化遮罩,尚未显示出能够显着提高OCR的准确性。