Question

我使用的是C＃，我想要抓取网站上的所有内容（但不包括可能附加到网页上的图片，脚本或文件）。我如何使用C＃和ASP.NET执行此操作？

Answer 1

您好，您可以使用HERE中的以下代码段来执行此操作：

StringBuilder sb  = new StringBuilder();
byte[]        buf = new byte[8192];

HttpWebRequest  request  = (HttpWebRequest)WebRequest.Create("http://www.your-url.com");
HttpWebResponse response = (HttpWebResponse)request.GetResponse();

Stream resStream = response.GetResponseStream();

string tempString = null;
int    count      = 0;
do
{
    count = resStream.Read(buf, 0, buf.Length);

    if (count != 0)
    {
        tempString = Encoding.ASCII.GetString(buf, 0, count);
        sb.Append(tempString);
    }
}
while (count > 0);

Console.WriteLine(sb.ToString());

Answer 2

您还可以使用Render的{{1}}方法获取HTML，如下所示。

Page

仅从网站页面读取HTML内容

2 个答案: