如何使用c#代码提取html页面的特定部分

时间:2014-10-28 13:37:53

标签: c# html

我有一个网页。我想提取页面的特定部分但不是整页。例如,从网页顶部向左4英寸,向右4英寸。请指导我如何实现这一目标。这是我的代码。

   public string GetWebSiteContents(string url)
    {
        WebRequest req = WebRequest.Create(url);
        // Get the stream from the returned web response
        StreamReader sr = new StreamReader(req.GetResponse().GetResponseStream());
        System.Text.StringBuilder sb = new System.Text.StringBuilder();
        string strLine;
        // Read the stream a line at a time and place each one into the stringbuilder
        while ((strLine = sr.ReadLine()) != null)
        {
            // Ignore blank lines
            if (strLine.Length > 0) sb.Append(strLine);
        }
        sr.Close();
        textBox1.Text = sb.ToString(); 
        return sb.ToString();
    }

此代码工作正常,但提取整页,需要花费很多时间。

1 个答案:

答案 0 :(得分:0)

实现您要做的事情的一种简单方法是使用Selenium等工具自动化真实浏览器,然后使用HTML标记,您可以检索保存的任何信息,例如左侧div或表格中的示例在页面上。查看this example以获取有关Selenium的教程。