使用勾选框扫描并阅读文档

时间:2013-05-15 08:28:51

标签: ocr

我有一位客户要求为不同地区的老人提供膳食。要做到这一点,人们会根据他们每天的选择填写一周的表格并勾选方框(它还会考虑具体要求)。

例如:

 Name
 Commune

                  With salt ( )      Without salt []

Mon :       Meal 1 ( )                   Meal 2 ( )
           Dessert 1 ( )                 Dessert ( )

Tues :       Meal 1 ( )                   Meal 2 ( )
           Dessert 1 ( )                 Dessert ( )

然后应编制每张纸上的数据,告诉我们每个社区每天准备的每种膳食中有多少...

这些纸张都是一样的,所以我希望能够扫描它们并自动读取它们。

我不知道任何允许我这样做的软件。完成此任务的最佳方法是什么?目前我正在研究tesseract,但也许有一些更简单的技术?

编辑:我们每周谈论几百种形式。理想情况下,我们会同时扫描它们,提取数据并以电子方式存储表格。

1 个答案:

答案 0 :(得分:9)

您正在寻找OCR,这意味着要阅读机器打印的字符。您正在寻找ICR / OMR软件,也称为表单处理或数据捕获。 OMR代表光学标记识别,这是您正在尝试做的,识别复选标记/复选框的价值。

有关手写识别的其他信息,请访问: ICR for machine printed text?

因为您的表单相同,这意味着您的表单属于“固定表单”类别,而基于模板的软件包可以处理这些表单。这是一个解释表单类型之间差异的简短文档: www.wisetrend.com/files/Structured_vs_Semi-Structured.pdf

您的空白表格本身也应正确设计用于机器识别。它应该有参考标记,以便更好地对齐模板,清晰的流程,以便用户知道如何自然填写,检查适当大小的框等。

我相信FlexiCapture会做你需要的一切:link。至少有几种其他解决方案可以执行类似的过程。我是纸质表格处理项目的集成商/顾问。

我删除了您的“移动”标签,因为我相信您不打算使用手机拍摄这些图像。如果你有,如果你有其他选择,我会反对。您提到在传统扫描仪上扫描它们,这是获得良好图像质量的最佳选择。相信我,在处理人工手写表单时,您将有足够的时间来处理,因此尽可能优化您的表单,扫描,软件和流程。

如果您有兴趣自己开发,那就有可能。该过程是将图像区域(每个复选标记)与某些“基线”进行比较,以查看是否有该区域的附加手写。如果超过某个阈值,则检查复选标记。典型问题是区域对齐和临界阈值水平(小/浅刻度标记)。商业包自动处理。

如果您需要任何其他指导,请与我们联系。

ilya evdokimov