仅从网站页面读取HTML内容

时间:2011-06-09 10:47:54

标签: c# asp.net

我使用的是C#,我想要抓取网站上的所有内容(但不包括可能附加到网页上的图片,脚本或文件)。我如何使用C#和ASP.NET执行此操作?

2 个答案:

答案 0 :(得分:1)

您好,您可以使用HERE中的以下代码段来执行此操作:

StringBuilder sb  = new StringBuilder();
byte[]        buf = new byte[8192];

HttpWebRequest  request  = (HttpWebRequest)WebRequest.Create("http://www.your-url.com");
HttpWebResponse response = (HttpWebResponse)request.GetResponse();

Stream resStream = response.GetResponseStream();

string tempString = null;
int    count      = 0;
do
{
    count = resStream.Read(buf, 0, buf.Length);

    if (count != 0)
    {
        tempString = Encoding.ASCII.GetString(buf, 0, count);
        sb.Append(tempString);
    }
}
while (count > 0);

Console.WriteLine(sb.ToString());

答案 1 :(得分:0)

您还可以使用Render的{​​{1}}方法获取HTML,如下所示。

Page