如何删除文档图像中的文本区域?

时间:2015-02-02 02:33:23

标签: opencv image-processing machine-learning computer-vision

与此post类似,我想问同样的问题,看看是否还有其他建议和想法。

给定文档图像(即报纸),如何在其中提取照片或删除文本区域?

我认为传统的OCR方法在这里可能不合适,因为我不需要识别文本,而OCR也不准确和缓慢。我相信文本区域(即文本块)和图像区域应该可以通过图像处理中的一些基于阈值的方法来区分。欢迎使用OpenCV中的任何建议或示例代码。谢谢!

BTW ,如果背景颜色不是白色,或某些块的背景颜色不是白色怎么办?

示例图片:

enter image description here

1 个答案:

答案 0 :(得分:0)

Ocr并没有把报纸作为输入。它需要首先找到文本区域。所以它确实是无关紧要的。为了找到文本区域,人们使用自适应阈值(tutorial)来对图像进行二值化,然后使用连接的组件进行笔划宽度变换以查找合适的文本区域。见本文swt。 尝试寻找图像似乎更难以努力,尽管它们也具有一些明显的特征,例如与文本相比较少的高空间频率。