我正在寻找能够智能地检测html页面内容变化的算法/库(最好是在c#中)。
例如,如果页面是techcrunch.com,则只有在有新帖子或页面发生重大更改时才会匹配。它会忽略html评论,javascript,诸如评论数量之类的小更新......
有人能指出我正确的方向吗?
答案 0 :(得分:0)
您可以使用JavaScript来计算页面上的元素数量或页面的特定部分。有数千种方法可以实现JS来检测变化。
答案 1 :(得分:0)
我的假设是,您使用C#程序请求页面。
实际上,有数百种方法可以做到。
我会给你一个:
第一,最简单的虚拟算法..是
while(true) {
checkModifyDate();
if(date is newer) {
do anything you want...
}
do it again in next 10 mins()
}
checkModifyDate()函数将“仅”检查HTTP标头是否有变化。
然后你可以做任何事情。
您可以将它添加到每xxx分钟运行一次的计时器对象或线程,并将其设置为自动为您完成工作。
希望这有帮助。