从TIFF中提取或裁剪图像

时间:2012-02-15 20:57:50

标签: extract ocr tiff crop

我需要从TIFF文件中间提取/裁剪标识(BEAVER),如下所示:http://i41.tinypic.com/2i7rbie.jpg

然后我需要自动化这个过程,这样它可以重复大约900万次......

我的猜测是我必须使用一些OCR软件。但是,这样的软件是否有可能“在这一点之下完成任何低于这一点且超过这一点的任何东西”?

思考?

1 个答案:

答案 0 :(得分:2)

通常,OCR软件仅从图像中提取文本并将其转换为某种特定于文本的格式。它没有作物。但是,您可以使用OCR技术来完成任务。我建议遵循:

  • OCR整页
  • 获取已识别文本的坐标
  • 将您的魔法规则应用于识别的文本,以找到要裁剪的区域:例如“申请填写”和“陈述”句子之间的所有内容。
  • 从该区域剪切并将其导出到您想要的位置。

真正的挑战在于您希望处理的文本数量。在定义“智能规则”时必须非常小心,以确保它们不会提供误报,并始终将可疑图像发送到单独的队列,稍后您将手动查看并更新规则。

一般情况下,它可能如下所示:

  • 拍摄前10张图片,定义徽标检测规则,测试并查看一切是否正常
  • 然后在接下来的10上运行,看看哪些是错误的,未处理的内容,更新规则,重新处理这些10以确保一切正常现在
  • 重新运行相同大小的新批次,直到它开始运作良好。
  • 然后将批量大小从10增加到100,并继续使用这些批次,直到所有内容再次开始正常运行
  • 然后继续这种方式来完善您的规则并增加批量。在某些时候你会达到生产速度。

很可能你会遇到一些与现有规则相矛盾的奇怪图像,或者只是错误。并非总是必须更新您的规则以适应它。可能会发生在你的900万集合中只有十几个这样的图像。将它们留在异常队列中进行手动处理可能会更好,并且不会冒着你的魔法规则的稳定性风险。