我正在寻找一种检测网页内容变化的方法(不是图书馆或框架,因为我似乎无法找到)。我看了一下类似于Tracking changes to web page content和白皮书(http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf)的帖子,但是却难以找到一个好方法。
我不相信页面内容的md5是有用的,因为大多数页面的内容会根据您的请求而略有变化(例如,如果他们硬编码当天的日期)。
此外,我想找出一种方法来确定哪些内容实际已经发生了变化(例如,在看到不同的内容上运行差异就足够了,但我首先要弄清楚哪些内容是不同)。
http://www.changedetection.com/似乎做得很好。 任何方法或想法或链接将不胜感激。
感谢。