我想阅读网站的内容并使用c#和asp.net将其存储在一个文件中。我知道我们可以使用httpwebrequest来阅读它。但是也可以读取所有可用的链接数据吗?
例如:假设我想阅读http://www.msn.com我可以直接提供网址,并且可以阅读没有问题的主页数据。但是在这里,msn.com页面在主页中包含了很多链接,我想要阅读那些页面内容。有可能吗?
有人可以给我一个明星来做这个吗?
提前致谢
答案 0 :(得分:1)
定义网址队列
将主页面网址添加到队列
虽然队列不是empy
3.1 currentUrl = Dequeue()
3.2读取当前网址
3.3使用regexp从当前页面中删除所有网址。
3.4将所有网址添加到队列
您必须将队列中的网址限制为某种深度或某些域名,否则您将尝试下载整个互联网:)