如何阅读网站的内容?

时间:2009-10-07 11:41:05

标签: c# httpwebrequest

我想阅读网站的内容并使用c#和asp.net将其存储在一个文件中。我知道我们可以使用httpwebrequest来阅读它。但是也可以读取所有可用的链接数据吗?

例如:假设我想阅读http://www.msn.com我可以直接提供网址,并且可以阅读没有问题的主页数据。但是在这里,msn.com页面在主页中包含了很多链接,我想要阅读那些页面内容。有可能吗?

有人可以给我一个明星来做这个吗?

提前致谢

1 个答案:

答案 0 :(得分:1)

  1. 定义网址队列

  2. 将主页面网址添加到队列

  3. 虽然队列不是empy

  4. 3.1 currentUrl = Dequeue()

    3.2读取当前网址

    3.3使用regexp从当前页面中删除所有网址。

    3.4将所有网址添加到队列

    您必须将队列中的网址限制为某种深度或某些域名,否则您将尝试下载整个互联网:)