如何区分照片和文字图像

时间:2011-07-29 08:05:01

标签: algorithm image-processing ocr statistics

我正在写OCR识别程序。它适用于扫描文本,但有两个问题:

  1. 它给照片带来误报(一些垃圾随机文字,如“bkigopes”)
  2. 效果很慢
  3. 目标是找到包含文本的所有图像并提取此文本。所以,鉴于上述问题,我需要快速拒绝照片。我希望有一些数学(统计)方法,如计算一些中位数,这可以很容易地确定彩色图像,没有像扫描文本那样的任何明显结构。

    这种方法/公式不应该被特殊类型的图像欺骗,例如带有大量文字和图片的屏幕截图或杂志页面的文字。此外,不应拒绝彩色文本(例如黄色的红色)。

    有没有人遇到过这样的问题?任何想法或现成的解决方案?

3 个答案:

答案 0 :(得分:1)

在此领域没有任何先验知识/经验 ,但作为一个完整的猜测:

熵计算会起作用吗?

如果某些东西具有高熵,那么它很可能是一个图像;如果低,它可能更像文本。

希望有所帮助...

答案 1 :(得分:0)

一般来说这是一项相当困难的任务。但是,根据您的特定应用,也许您可​​以对OCR程序的输入进行假设。

您提到了“扫描文本”。所以我假设这不适用于沿路的公告牌照片,需要识别风景背景中公告板上的文字。这意味着颜色范围较低,对比度较高。

另一方面,照片通常具有非常大范围的颜色,相邻像素之间的对比度相对较低。当然,考虑到许多摄影风格,这种假设很容易失效。

所以我认为你可以尝试的第一件事就是将图像转换为黑白(不是灰度)。然后看两种颜色的相对比例。我认为照片将比扫描文档更均匀地分割。你用来转换照片的算法应该能够抵抗异常值,所以使用某种中位数可能会很好地作为一个阈值。

答案 2 :(得分:0)

首先,由于杂志页面是一个混合,你将找不到一种能够拍摄整个图像并做出决定的技术。将需要某种分段。如果是我,我会在水平和垂直方向上寻找显示低方差的像素带,然后使用它们将图像划分为网格。然后,您可以测试网格中的每个单元格并删除那些照片。

现在进行照片测试。像@ Mehrdad的熵方法一样,你可以尝试压缩这样的任务。不同的压缩算法的工作方式不同,但无损Lempel-Ziv-Welch风格或等效压缩算法应该压缩文本图像而不是照片。测量未压缩和压缩版本之间的大小差异可以很好地估计熵。毕竟,熵是衡量最佳可能无损压缩的指标。通过一些实证研究,这可以提供一种相当可靠的分类技术。