机读文件的ICR?

时间:2013-04-18 08:47:57

标签: ocr data-extraction icr

我知道ICR基本上用于手写(手工打印)数据识别,但我们是否可以利用ICR来提取任何机会打印文本的扭曲(质量差)?

如果不是什么是解决以下问题的最佳方法

我有一个非结构化的文档,可能会遇到2个或更多页面,在文档中有几个日期字段将被手写。现在我想将其转换为文本文件。 我已经尝试了一些全页面的ocr(无所不能和abbyy等)工具,它们有ICR模块转换成文本文件。 他们擅长整页OCR,但是当遇到手写日期时,它会放置垃圾字符而不是使用ICR模块。 我不想使用像paracript和A2ia这样基于位置的表单处理工具,它们只适用于结构化文档。

或者我们可以使用ICR来转换机器打印的文本和手写(无论如何它在这种情况下适用于手动返回日期)

这里我的目标是从非结构化文档中获取文本文件输出,只需少量手写文本(如日期,数字)

1 个答案:

答案 0 :(得分:2)

  

我尝试了一些全页ocr(omnipage和abbyy等)工具   有ICR模块

这是不正确的,这解释了糟糕的结果。如果您尝试过零售版本的OmniPage和ABBYY FineReader,这些软件包仅限OCR,不支持ICR。

  

我不想使用表单处理工具

您可能需要以某种方式,但该方法有一些变化。这必须是两种技术的结合,无论是开箱即用还是自行创建,但只需安装和运行它就需要付出更多努力。

今天,假设没有非结构化文本ICR软件可以提供高质量的结果。整页OCR或非结构化文本OCR(机器文本)在机器文本上产生高质量的结果,在手写时产生垃圾。你是对的,ICR意味着区域识别,它允许提供数据类型和后端字典,以提高手写识别。

对于最简单,最快速的方法,也可能是最经济和最省力的方法,我会使用非结构化的表单处理包,例如ABBYY FlexiCapture(http://www.wisetrend.com/abbyy_flexicapture.shtml)。它需要一些非编程设置来“定位”区域。区域可能会改变位置,此软件仍然可以找到它们,然后使用适当的算法(OCR / ICR)来读取区域内容。支持OCR,ICR,OMR(选中标记),BCR(条形码)。还有内置的整页OCR。我在内部使用这个软件,转售它,并且有超过14年的微调经验。

对于一种可能更经济的方式,但可能需要手动结合至少两种技术(两次购买而不是一次加工)可能在一天结束时最不经济,我会使用某种OCR SDK用于机器文本,以及某种用于手写区域的支持ICR的SDK。根据这些区域的位置一致性,您可以只提供坐标。如果他们转移,则需要对区域位置进行更深入的分析以将其传递给ICR。需要将ICR认可的文本返回到OCR文本中的适当位置。

在我看来,现在有了一些可以开箱即用的工具,我会使用开箱即用而不是自己写的东西,因为有几个主要的挑战需要解决:区域识别,两种技术整合,工作流程。几年前,当目前的工具不可用时,我们已经完成了这样的整合。