检测网页内容的变化

时间:2012-11-15 13:32:13

标签: diff web-crawler

我正在寻找一种检测网页内容变化的方法(不是图书馆或框架,因为我似乎无法找到)。我看了一下类似于Tracking changes to web page content和白皮书(http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf)的帖子,但是却难以找到一个好方法。

我不相信页面内容的md5是有用的,因为大多数页面的内容会根据您的请求而略有变化(例如,如果他们硬编码当天的日期)。

此外,我想找出一种方法来确定哪些内容实际已经发生了变化(例如,在看到不同的内容上运行差异就足够了,但我首先要弄清楚哪些内容是不同)。

http://www.changedetection.com/似乎做得很好。 任何方法或想法或链接将不胜感激。

感谢。

1 个答案:

答案 0 :(得分:0)

HTTP Last-Modified和ETag标头可能是一种方法。但是,如果您抓取的网页没有实现它们,则会留下文本相似性检测。