应用错误收集

爬虫/蜘蛛检测新网站

时间：2013-03-30 12:24:27

标签： web-crawler

我使用c＃和vb.net有很好的开发经验，但我需要一些指导。我想像搜索引擎一样开发蜘蛛和爬虫，但我不知道如何：

如何在网络中检测新网站？就像Google推出时一样检测和抓取网站？
如何检测添加到任何网站的新网页？我可以检测并解析网站的所有页面，但现在是时候进行了吗？如何检测新添加的页面？
如何检测已修改的页面？

3 个答案:

答案 0 :(得分：1)

以下链接可能有用

http://www.makeuseof.com/tag/build-basic-web-crawler-pull-information-website/

http://www.bitrepository.com/how-to-create-a-simple-web-data-extractor.html

答案 1 :(得分：0)

查找新网页的两种主要方式：

网站地图（Google这个术语可以了解更多信息），也可以指示网页何时更新。
注意到您正在抓取的其他网页上指向新网站/网页的链接。

对于您已经了解的页面，您可以使用“If-Modified-Since”HTTP标头，如果页面自您指定的日期以来未发生更改，则会告知服务器返回304响应。这样可以节省您再次下载和解析页面（如果它没有更改），尽管显然您仍然需要发出请求才能找到它。这就是首选站点地图的原因，您可以立即获得有关整个站点的信息。当然，网站不需要提供它们。

答案 2 :(得分：0)

我不太了解c＃id从编写运行网站的东西开始：google上的“www.spiderthissite.com”并记录/ locations / id也使得通过链接的页面的html看起来的reg ex也看起来用于链接和文件夹位置。

然而你的问题非常广泛，只是先给它一个爆炸，然后在你遇到困难时来到这里。