应用错误收集

我知道ICR基本上用于手写（手工打印）数据识别，但我们是否可以利用ICR来提取任何机会打印文本的扭曲（质量差）？

如果不是什么是解决以下问题的最佳方法

我有一个非结构化的文档，可能会遇到2个或更多页面，在文档中有几个日期字段将被手写。现在我想将其转换为文本文件。我已经尝试了一些全页面的ocr（无所不能和abbyy等）工具，它们有ICR模块转换成文本文件。他们擅长整页OCR，但是当遇到手写日期时，它会放置垃圾字符而不是使用ICR模块。我不想使用像paracript和A2ia这样基于位置的表单处理工具，它们只适用于结构化文档。

或者我们可以使用ICR来转换机器打印的文本和手写（无论如何它在这种情况下适用于手动返回日期）

这里我的目标是从非结构化文档中获取文本文件输出，只需少量手写文本（如日期，数字）

我尝试了一些全页ocr（omnipage和abbyy等）工具有ICR模块

这是不正确的，这解释了糟糕的结果。如果您尝试过零售版本的OmniPage和ABBYY FineReader，这些软件包仅限OCR，不支持ICR。

我不想使用表单处理工具

您可能需要以某种方式，但该方法有一些变化。这必须是两种技术的结合，无论是开箱即用还是自行创建，但只需安装和运行它就需要付出更多努力。

今天，假设没有非结构化文本ICR软件可以提供高质量的结果。整页OCR或非结构化文本OCR（机器文本）在机器文本上产生高质量的结果，在手写时产生垃圾。你是对的，ICR意味着区域识别，它允许提供数据类型和后端字典，以提高手写识别。

对于最简单，最快速的方法，也可能是最经济和最省力的方法，我会使用非结构化的表单处理包，例如ABBYY FlexiCapture（http://www.wisetrend.com/abbyy_flexicapture.shtml）。它需要一些非编程设置来“定位”区域。区域可能会改变位置，此软件仍然可以找到它们，然后使用适当的算法（OCR / ICR）来读取区域内容。支持OCR，ICR，OMR（选中标记），BCR（条形码）。还有内置的整页OCR。我在内部使用这个软件，转售它，并且有超过14年的微调经验。

对于一种可能更经济的方式，但可能需要手动结合至少两种技术（两次购买而不是一次加工）可能在一天结束时最不经济，我会使用某种OCR SDK用于机器文本，以及某种用于手写区域的支持ICR的SDK。根据这些区域的位置一致性，您可以只提供坐标。如果他们转移，则需要对区域位置进行更深入的分析以将其传递给ICR。需要将ICR认可的文本返回到OCR文本中的适当位置。

在我看来，现在有了一些可以开箱即用的工具，我会使用开箱即用而不是自己写的东西，因为有几个主要的挑战需要解决：区域识别，两种技术整合，工作流程。几年前，当目前的工具不可用时，我们已经完成了这样的整合。

机读文件的ICR？

1 个答案: