如何使用C#获取网站文本?

时间:2012-01-15 12:10:10

标签: c# text web

我试图从没有任何源代码的网站中获取文本。

我有这段代码:

HttpWebRequest myRequest = (HttpWebRequest)WebRequest.Create("http://www.google.com");
myRequest.Method = "GET";
WebResponse myResponse = myRequest.GetResponse();
StreamReader sr = new StreamReader(myResponse.GetResponseStream(), System.Text.Encoding.UTF8);
string result = sr.ReadToEnd();
sr.Close();
myResponse.Close();
Console.WriteLine(result);

当然,这也会给我文本以及源代码。我该如何处理源代码?

1 个答案:

答案 0 :(得分:4)

我建议使用像HTML Agility Pack这样的HTML解析器 - 一旦文档加载到它,您就可以使用其InnerText属性从顶层节点中提取文本。