如何从我的网络应用程序下载网页,然后阅读“标题”和“描述”元标记? 就像一个网络爬虫,但在Asp.net中,并通过..an asp.net网页调用?
谢谢!
答案 0 :(得分:2)
您可以使用WebClient
class在System.Net
命名空间中找到外部URL的屏幕抓取。使用DownloadData
方法从指定的URL下载内容。下载的数据以字节数组形式出现,但您可以将其转换为字符串。
以下代码段显示了如何使用WebClient
从我的博客主页http://scottonwriting.net/sowblog/default.aspx抓取HTML:
// Create a new WebClient instance.
WebClient myWebClient = new WebClient();
// Download the markup from
byte[] myDataBuffer = myWebClient.DownloadData("http://scottonwriting.net/sowblog/default.aspx");
// Convert the downloaded data into a string
string markup = Encoding.ASCII.GetString(myDataBuffer);
获得标记后,您可以使用正则表达式或字符串搜索方法来选择感兴趣的标记。
答案 1 :(得分:0)
使用HTML Agility Pack及其HTMLWeb
类。