如何使用c#在asp.net中通过标签读取远程网页标签的内容?

时间:2012-10-09 11:36:12

标签: asp.net url remote-access

我想用C#阅读asp.net中远程网页的内容。我在asp.net中使用以下代码阅读了它。

 protected void Page_Load(object sender, EventArgs e)
    {
        string TheUrl = "http://www.demosite.com/Default.aspx";
        string response = GetHtmlPage(TheUrl);
        Response.Write(response);

    }
static string GetHtmlPage(string strURL)
    {

        String strResult;
        WebResponse objResponse;
        WebRequest objRequest = HttpWebRequest.Create(strURL);
        objResponse = objRequest.GetResponse();
        using (StreamReader sr = new StreamReader(objResponse.GetResponseStream()))
        {
            strResult = sr.ReadToEnd();
            sr.Close();
        }
        return strResult;
    }

在这里,我获得了远程网页的全部内容,现在我希望通过标签阅读内容标签并获取仅其内容。有可能吗?

帮助赞赏......! 提前谢谢!

1 个答案:

答案 0 :(得分:0)

使用HTML Agility pack遍历元素。这是解析HTML的最佳方式。

您应该能够使用

获取所有文本节点
doc.DocumentNode.SelectNodes("//text()[normalize-space(.) != '']")