应用错误收集

从TIFF中提取或裁剪图像

时间：2012-02-15 20:57:50

标签： extract ocr tiff crop

我需要从TIFF文件中间提取/裁剪标识（BEAVER），如下所示：http://i41.tinypic.com/2i7rbie.jpg

然后我需要自动化这个过程，这样它可以重复大约900万次......

我的猜测是我必须使用一些OCR软件。但是，这样的软件是否有可能“在这一点之下完成任何低于这一点且超过这一点的任何东西”？

思考？

1 个答案:

答案 0 :(得分：2)

通常，OCR软件仅从图像中提取文本并将其转换为某种特定于文本的格式。它没有作物。但是，您可以使用OCR技术来完成任务。我建议遵循：

OCR整页
获取已识别文本的坐标
将您的魔法规则应用于识别的文本，以找到要裁剪的区域：例如“申请填写”和“陈述”句子之间的所有内容。
从该区域剪切并将其导出到您想要的位置。

真正的挑战在于您希望处理的文本数量。在定义“智能规则”时必须非常小心，以确保它们不会提供误报，并始终将可疑图像发送到单独的队列，稍后您将手动查看并更新规则。

一般情况下，它可能如下所示：

拍摄前10张图片，定义徽标检测规则，测试并查看一切是否正常
然后在接下来的10上运行，看看哪些是错误的，未处理的内容，更新规则，重新处理这些10以确保一切正常现在
重新运行相同大小的新批次，直到它开始运作良好。
然后将批量大小从10增加到100，并继续使用这些批次，直到所有内容再次开始正常运行
然后继续这种方式来完善您的规则并增加批量。在某些时候你会达到生产速度。

很可能你会遇到一些与现有规则相矛盾的奇怪图像，或者只是错误。并非总是必须更新您的规则以适应它。可能会发生在你的900万集合中只有十几个这样的图像。将它们留在异常队列中进行手动处理可能会更好，并且不会冒着你的魔法规则的稳定性风险。