智能检测html内容的变化

时间:2012-05-25 01:04:54

标签: c# html web-scraping

我正在寻找能够智能地检测html页面内容变化的算法/库(最好是在c#中)。

例如,如果页面是techcrunch.com,则只有在有新帖子或页面发生重大更改时才会匹配。它会忽略html评论,javascript,诸如评论数量之类的小更新......

有人能指出我正确的方向吗?

2 个答案:

答案 0 :(得分:0)

您可以使用JavaScript来计算页面上的元素数量或页面的特定部分。有数千种方法可以实现JS来检测变化。

答案 1 :(得分:0)

我的假设是,您使用C#程序请求页面。

实际上,有数百种方法可以做到。

我会给你一个:

第一,最简单的虚拟算法..是

while(true) {
    checkModifyDate();

    if(date is newer) {
        do anything you want...
    }
    do it again in next 10 mins()
}

checkModifyDate()函数将“仅”检查HTTP标头是否有变化。
然后你可以做任何事情。

您可以将它添加到每xxx分钟运行一次的计时器对象或线程,并将其设置为自动为您完成工作。

希望这有帮助。