我有一个抓取网络并截取网页截图的系统。目前我只是哈希图像文件(存储为png)。但是,对于在博客中对文章进行评论的页面,这不适用。或视图计数。
所以我的问题是检测这些变化的最佳方法是什么?哪种算法效果最好?
答案 0 :(得分:0)
一种天真但非常容易实现的方法是从每个页面中清除所有数字字符并仅比较它们的字符内容。
答案 1 :(得分:0)
首先,我们要检测具有变化的区域。一个简单的好方法就是获取两个图像之间的差异,然后查找差异大于零的所有区域。 之后,我们将查看每组点并查看原始图像中的这些点,并尝试使用某些OCR软件检测数字。
一般算法: