检测类似的网页

时间:2016-09-26 12:28:11

标签: java algorithm image-processing

我有一个抓取网络并截取网页截图的系统。目前我只是哈希图像文件(存储为png)。但是,对于在博客中对文章进行评论的页面,这不适用。或视图计数。

所以我的问题是检测这些变化的最佳方法是什么?哪种算法效果最好?

2 个答案:

答案 0 :(得分:0)

一种天真但非常容易实现的方法是从每个页面中清除所有数字字符并仅比较它们的字符内容。

答案 1 :(得分:0)

首先,我们要检测具有变化的区域。一个简单的好方法就是获取两个图像之间的差异,然后查找差异大于零的所有区域。 之后,我们将查看每组点并查看原始图像中的这些点,并尝试使用某些OCR软件检测数字。

一般算法:

  1. Diff = Im1 - Im2
  2. 阈值Diff以获得阈值图像ThIm,即,如果Diff(x,y)> 0 = ThIm(x,y)= 1其他明智的ThIm(x,y)= 0。
  3. 在ThIm
  4. 中查找已连接的组件
  5. 对于每个连接的组件,找到它周围的边界框。
  6. 使用边界框裁剪原始图像
  7. 在裁剪区域运行OCR并检查是否找到了数字