排序非常相似的图像PHP OCR

时间:2012-10-20 20:35:16

标签: php linux api ocr

感谢您查看我的问题。

基本上我要做的是找到所有看起来像第一张和第三张图片的图片:http://imgur.com/a/IhHEC

并删除所有看起来不那样的(2,4)。

我试过几个图书馆都无济于事。

另一种可接受的方法是检查图像是否包含“代码:”,因为该字符串位于我必须整理的每个字符串中。

谢谢你, 史蒂夫

编辑:虽然第1张和第3张图像看起来大小相同,但它们不是。

2 个答案:

答案 0 :(得分:3)

如果这些是您将要使用的实际图像,看起来直方图相似性将起作用。第一和第三是非常对比的,第二和第四,特别是第四,具有各种不同的强度。

您可以轻松地在图像中制作灰度阴影的直方图,然后将阈值应用于直方图的形状以对其进行分类。

编辑:要实际执行此操作:您可以遍历每个像素并创建像素值数组=>找到的次数。由于它是灰度,您可以使用R,G或B通道。然后将每个数字除以图像中的像素数进行标准化,因此它适用于任何大小。直方图中的每个条目将是所用像素数的一部分。然后,您可以测量高于特定阈值的值的数量。如果有很多灰色,你会得到大量的小值。如果没有,您将获得少量大值。

答案 1 :(得分:0)

由于我的背景是使用图像中的文本而不是图像对象,我会在后OCR过程中执行此操作,方法是在文本内容中搜索“关键字”或检查表示所需数据的“正则表达式”。这意味着整个工作需要分为两个阶段:图像到文本OCR(免费或廉价,软件或云)和实际分离过程(简单编程)。