应用错误收集

时间：2015-06-07 19:06:54

标签： image-processing crop

我正在寻找包含我最终希望提供给tesseract的文本的数千张图片。不幸的是，在尝试转录文本之前，我想要删除所有图像的边界（边界的位置因图像而异）。我想要删除的边界文本的示例出现在下面的图像中 - 黑框包含我想要保留的文本行（在这种情况下它是黑屏，因为它是敏感数据）。 Example Image

我通常会使用mogrify来预处理图像，但在这种情况下，移位位置会阻止我这样做。有人可以建议快速而肮脏的方法来裁剪这些图像吗？我已经回顾了使用Python的PIL的方法，但没有找到解决方案（我的经验有限）。

答案 0 :(得分：1)

由于不可预测的边距长度，我被迫使用模板匹配。 python示例here非常有用。当图像质量差时，关于模板可能位于何处存在一些混淆，因此从原始图像中选择四个感兴趣区域（ROI），N，S，E和W，并且在这些区域内匹配模板。

对于那些感兴趣的人，我从图像集中选择了一个随机选择的图像，并从这个集合中提取我的模板。然后，我根据每个地区的模板之间的多数投票决定最前沿的位置。