如何通过asp.net下载html页面

时间:2011-01-03 19:47:06

标签: asp.net

如何从我的网络应用程序下载网页,然后阅读“标题”和“描述”元标记? 就像一个网络爬虫,但在Asp.net中,并通过..an asp.net网页调用?

谢谢!

2 个答案:

答案 0 :(得分:2)

您可以使用WebClient classSystem.Net命名空间中找到外部URL的屏幕抓取。使用DownloadData方法从指定的URL下载内容。下载的数据以字节数组形式出现,但您可以将其转换为字符串。

以下代码段显示了如何使用WebClient从我的博客主页http://scottonwriting.net/sowblog/default.aspx抓取HTML:

// Create a new WebClient instance.
WebClient myWebClient = new WebClient();

// Download the markup from 
byte[] myDataBuffer = myWebClient.DownloadData("http://scottonwriting.net/sowblog/default.aspx");

// Convert the downloaded data into a string
string markup = Encoding.ASCII.GetString(myDataBuffer);

获得标记后,您可以使用正则表达式或字符串搜索方法来选择感兴趣的标记。

答案 1 :(得分:0)

使用HTML Agility Pack及其HTMLWeb类。