基于多个OCR软件包输出改善OCR结果的软件

时间:2010-07-17 10:51:13

标签: automation ocr

是否存在已经存在的商业或学术软件

  • 覆盖多个OCR包(Abbyy FineReader,Adobe Acrobat Professional,ReadIris等)的结果。
  • 基于来自多个来源的累积知识提供全自动改进
  • 允许在运行时使用其他外部工具设置(dictionieres,批量Web /本地语料库查找等)。

注意:我已经有内部解决方案可视化来自单一来源的结果,因此,如果没有可获得的此类软件,我不介意开发自己的::)查询合作然后也非常欢迎! screnshot http://corsis.sourceforge.net/img/so-ocr.png

2 个答案:

答案 0 :(得分:0)

在几个OCR引擎之间使用投票的想法并不新鲜。问题是它并没有真正起作用。如果它们是简单的分类器,那么可能会有效,那么你就会结合他们的投票并改进结果。但它们都是非常复杂的软件,使用了相似的一组着名的方法,差异很小,但可能以不同的方式组合它们,有些实现更好,有些更糟糕。

经验表明,当您结合使用多种OCR技术时,最佳决策规则是依靠最准确的结果,而只依赖其他技术。根据我的经验(我为ABBYY工作),ABBYY OCR绝对是您提到的最准确的。

据我所知,使用投票的唯一理由是,如果您需要交叉检查“可疑”字符,并在需要100%准确度时将其发送到手动验证。使用这种方法可以增加要验证的字符数,但减少错过错误字符的可能性。

答案 1 :(得分:0)

我之前使用过两种选项,并建议使用。

  1. PrimeOCR。 http://www.primerecognition.com/
  2. 这是一个商业产品,它使用多个OCR引擎和投票来确定最佳结果。它只是机器打印。我上次使用它时有6个引擎。联系Alex Dahl。

    我在一个每天扫描20,000多页的主要项目中使用过它。

    1. 来自OpenText的RecoStar。
    2. RecoStar使用投票,可以做手印和机器打印。