爬虫/蜘蛛检测新网站

时间:2013-03-30 12:24:27

标签: web-crawler

我使用c#和vb.net有很好的开发经验,但我需要一些指导。我想像搜索引擎一样开发蜘蛛和爬虫,但我不知道如何:

  1. 如何在网络中检测新网站?就像Google推出时一样检测和抓取网站?
  2. 如何检测添加到任何网站的新网页?我可以检测并解析网站的所有页面,但现在是时候进行了吗?如何检测新添加的页面?
  3. 如何检测已修改的页面?

3 个答案:

答案 0 :(得分:1)

答案 1 :(得分:0)

查找新网页的两种主要方式:

  1. 网站地图(Google这个术语可以了解更多信息),也可以指示网页何时更新。
  2. 注意到您正在抓取的其他网页上指向新网站/网页的链接。
  3. 对于您已经了解的页面,您可以使用“If-Modified-Since”HTTP标头,如果页面自您指定的日期以来未发生更改,则会告知服务器返回304响应。这样可以节省您再次下载和解析页面(如果它没有更改),尽管显然您仍然需要发出请求才能找到它。这就是首选站点地图的原因,您可以立即获得有关整个站点的信息。当然,网站不需要提供它们。

答案 2 :(得分:0)

我不太了解c#id从编写运行网站的东西开始:google上的“www.spiderthissite.com”并记录/ locations / id也使得通过链接的页面的html看起来的reg ex也看起来用于链接和文件夹位置。

然而你的问题非常广泛,只是先给它一个爆炸,然后在你遇到困难时来到这里。