应用错误收集

如何删除文档图像中的文本区域？

时间：2015-02-02 02:33:23

标签： opencv image-processing machine-learning computer-vision

与此post类似，我想问同样的问题，看看是否还有其他建议和想法。

给定文档图像（即报纸），如何在其中提取照片或删除文本区域？

我认为传统的OCR方法在这里可能不合适，因为我不需要识别文本，而OCR也不准确和缓慢。我相信文本区域（即文本块）和图像区域应该可以通过图像处理中的一些基于阈值的方法来区分。欢迎使用OpenCV中的任何建议或示例代码。谢谢！

BTW ，如果背景颜色不是白色，或某些块的背景颜色不是白色怎么办？

示例图片：

enter image description here

1 个答案:

答案 0 :(得分：0)

Ocr并没有把报纸作为输入。它需要首先找到文本区域。所以它确实是无关紧要的。为了找到文本区域，人们使用自适应阈值（tutorial）来对图像进行二值化，然后使用连接的组件进行笔划宽度变换以查找合适的文本区域。见本文swt。尝试寻找图像似乎更难以努力，尽管它们也具有一些明显的特征，例如与文本相比较少的高空间频率。