Question

我试图从没有任何源代码的网站中获取文本。

我有这段代码：

HttpWebRequest myRequest = (HttpWebRequest)WebRequest.Create("http://www.google.com");
myRequest.Method = "GET";
WebResponse myResponse = myRequest.GetResponse();
StreamReader sr = new StreamReader(myResponse.GetResponseStream(), System.Text.Encoding.UTF8);
string result = sr.ReadToEnd();
sr.Close();
myResponse.Close();
Console.WriteLine(result);

当然，这也会给我文本以及源代码。我该如何处理源代码？

Answer 1

我建议使用像HTML Agility Pack这样的HTML解析器 - 一旦文档加载到它，您就可以使用其InnerText属性从顶层节点中提取文本。

如何使用C＃获取网站文本？

1 个答案: