应用错误收集

如何阅读网站的内容？

时间：2009-10-07 11:41:05

标签： c# httpwebrequest

我想阅读网站的内容并使用c＃和asp.net将其存储在一个文件中。我知道我们可以使用httpwebrequest来阅读它。但是也可以读取所有可用的链接数据吗？

例如：假设我想阅读http://www.msn.com我可以直接提供网址，并且可以阅读没有问题的主页数据。但是在这里，msn.com页面在主页中包含了很多链接，我想要阅读那些页面内容。有可能吗？

有人可以给我一个明星来做这个吗？

提前致谢

1 个答案:

答案 0 :(得分：1)

定义网址队列
将主页面网址添加到队列
虽然队列不是empy

3.1 currentUrl = Dequeue（）

3.2读取当前网址

3.3使用regexp从当前页面中删除所有网址。

3.4将所有网址添加到队列

您必须将队列中的网址限制为某种深度或某些域名，否则您将尝试下载整个互联网：）