我想用C#阅读asp.net中远程网页的内容。我在asp.net中使用以下代码阅读了它。
protected void Page_Load(object sender, EventArgs e)
{
string TheUrl = "http://www.demosite.com/Default.aspx";
string response = GetHtmlPage(TheUrl);
Response.Write(response);
}
static string GetHtmlPage(string strURL)
{
String strResult;
WebResponse objResponse;
WebRequest objRequest = HttpWebRequest.Create(strURL);
objResponse = objRequest.GetResponse();
using (StreamReader sr = new StreamReader(objResponse.GetResponseStream()))
{
strResult = sr.ReadToEnd();
sr.Close();
}
return strResult;
}
在这里,我获得了远程网页的全部内容,现在我希望通过标签阅读内容标签并获取仅其内容。有可能吗?
帮助赞赏......! 提前谢谢!
答案 0 :(得分:0)
使用HTML Agility pack遍历元素。这是解析HTML的最佳方式。
您应该能够使用
获取所有文本节点doc.DocumentNode.SelectNodes("//text()[normalize-space(.) != '']")