我希望我的应用程序以一种形式填写单个字段 存在为黑白图像文件。形式总是如此 以相同的纸质版本开始,但到时候我的 应用程序从我的用户获取它,它可能已被扫描或传真更多 不止一次。因此,我需要的领域不在 每个文件中的相同位置。
我的用户并不总是从我这里得到空白表格,所以我没有 有能力打印我可以的标记或占位符 后来才认识到。
原始空白表格上有文字,但因为它可能 已传真,我只有200 dpi的分辨率。文本 对于一个人来说,它总是足够大,但我仍持怀疑态度 关于OCR。
我有一些预算,所以我不需要免费解决方案......让我们 只要说2000美元。
那就是说,我正在考虑
获取OCR解决方案以查找文本 我需要的领域标签。我不 我想我有资源或者 我自己的专业知识。我不 需要完美的认可,因为我 已经知道文字说的是什么了。 但我确实需要知道X-和 Y坐标。有软件吗? 这样做?或者编程比我想象的更容易?
构建或购买要识别的软件 形式的边缘。从那里, 我可以得到相对的位置 我需要的领域。我在想 虚线我的扫描仪软件围绕着图像 一份小文件。这是一个众所周知的 algorhthm还是有空的 溶液
其他一些认识方式 我需要的领域。尝试google 表格填写软件给我 数百场网络表格比赛, pdf表格等不做我的事 需要。
我对语言并不挑剔。我的应用程序在Linux上运行,但如果最好的解决方案是Microsoft,我可以做到这一点。
我很感激你的想法。
答案 0 :(得分:4)
如果我理解正确,表格总是相同的,但由于影印/传真,可能会移动,缩放或稍微旋转。在这种情况下,您的问题是图像注册之一:找到最佳的刚性转换,使用户的表单与您的“模型”形式对齐,您可以在其中知道字段的位置利益。知道转换后,您可以在用户的表单中计算字段的位置。
有许多图像配准算法,通常是为诸如对齐大脑的MR图像等应用而开发的。它们的计算成本很高,需要统计先验。幸运的是,您的情况更容易:您需要做的就是在用户表单的内容周围放置一个矩形。协调下降应该有效。你需要一些噪音容忍度(表格外的垃圾)。
答案 1 :(得分:0)
以下是一些可用的OCR解决方案的一些摘要(开源而非):http://googlesystem.blogspot.com/2007/04/open-source-ocr-software-sponsored-by.html
答案 2 :(得分:0)
刚性注册可能还不够。用户可以修改模板表单的布局和格式,例如更改字体,更改复选框或输入框的位置,在不同的换行位置打破段落等等。这些差异比纯粹处理更复杂转移,旋转或规模转换。此外,如果您的图像是二进制图像(黑白),我不认为那些医学图像配准算法(处理灰度图像)将有很大帮助。您的成本函数和最小化策略可能会相应更改。