我使用c#和vb.net有很好的开发经验,但我需要一些指导。我想像搜索引擎一样开发蜘蛛和爬虫,但我不知道如何:
答案 0 :(得分:1)
以下链接可能有用
http://www.makeuseof.com/tag/build-basic-web-crawler-pull-information-website/
http://www.bitrepository.com/how-to-create-a-simple-web-data-extractor.html
答案 1 :(得分:0)
查找新网页的两种主要方式:
对于您已经了解的页面,您可以使用“If-Modified-Since”HTTP标头,如果页面自您指定的日期以来未发生更改,则会告知服务器返回304响应。这样可以节省您再次下载和解析页面(如果它没有更改),尽管显然您仍然需要发出请求才能找到它。这就是首选站点地图的原因,您可以立即获得有关整个站点的信息。当然,网站不需要提供它们。
答案 2 :(得分:0)
我不太了解c#id从编写运行网站的东西开始:google上的“www.spiderthissite.com”并记录/ locations / id也使得通过链接的页面的html看起来的reg ex也看起来用于链接和文件夹位置。
然而你的问题非常广泛,只是先给它一个爆炸,然后在你遇到困难时来到这里。