Question

我正在尝试使用C＃WebClient下载此网页。现在它与python urllib2完美配合，但是使用c＃web客户端，它会在输出文件中提供这些奇怪的字符。

我也尝试过使用带有webclient类的编码，但它根本不起作用..

public static string GetWebURL()
    {
        string url = "http://bet.hkjc.com";
        WebClient webClient = new WebClient();
        webClient.Encoding = Encoding.UTF8;
        string html = webClient.DownloadString(url);
        File.WriteAllText("page.html", html);
    }

这是带有那些奇怪字符的输出

â€¹Ã¢Ã¥Â²QtÃ±wâ€°pUÃ°Ã±ÃµQuÃ²Ã±tVPÃ’Ã•Ã—7vÃ–Ã—w qÂHËœÃ¨*â€ž%Ã¦gâ€“dÃ¦Ã§%Ã¦Ã¨Ã«Â»Ãº)Ã™Ã±rÂ(N.ÃŠ,(Q(Â©,HÂµU*IÂ(Ã‘ÃJ,Kâ€žË†*Ã™q)((â€U*TÆ’eâ€°E Â©yâ€°I9Â©Å½Ã‰Ã‰Â©Ã…Ã…ÃŽÃ¹y%EÃ¹9 Â¶iâ€°9Ã…Â©Ã– %â„¢i Xâ€h"(Ã‰-PÂ°U(ÃÃŒKÃ‰/Ã—Ã‹Ã‰ONÂ¹H/Â£(5MÂ¯Â¸4Â©Â¸Â¤HÃƒ\SlHuÂ°kPËœkPÂ¼Å¸Â£Â¯+PP/Lâ€˜ÂËœ4&ÂµÃ‚?MCI_ISÂ®+%?713Ã/17Â¨   Ã‰Ëœfd!Â¸   zJÅ¡Ãšâ€ PÂ«SÃ²â€œKsSÃ³JÃ´ &MA  VÂ¨Å¸KÃ²Ã´â€™RKâ€šs2ÃœÅ â‚¬ÂªÃ´2â€¹}Ã²Ã“Ã³Ã³445Â¡ÃŠÃ=ÂWâ€ZÂâ€œËœÅ“ t|zj^jQbN<Ã˜1zâ€°Ã…Ã¶9â€°yÃ©Â¶Â©yJ_ÂP-Ë†Ã”Å¡Å“chË†eÂ¦â€š Âµ\H&[Ã—rÃ™Ã¨Câ€™â‚¬0ÂJ%Ã â€ž Ã·â€šÃ¼Ã¼P9UdÂ¦MÃÃÃ”ÃŒÃ˜ÃˆÃ–MÃ—ÃÃˆ25Â² Ã·Ã´Â³VÂ·â€ (ÃŽM-JOM

我该怎么做才能看到正在发送的HTML？

Answer 1

您正在查看压缩字节流。您可以通过检查http响应的标头来判断，例如使用curl：

curl -X HEAD -i http://bet.hkjc.com/

但浏览器的开发者控制台会显示相同内容：

HTTP/1.1 200 OK
Cache-Control: public, max-age=120, must-revalidate
Content-Length: 3615
Content-Type: text/html; charset=utf-8
Content-Encoding: gzip
Expires: Wed, 29 Jun 2016 08:01:06 GMT
Vary: Accept-Encoding
Server: Microsoft-IIS/7.0
X-AspNet-Version: 2.0.50727
X-Powered-By: ASP.NET
Date: Wed, 29 Jun 2016 08:00:14 GMT
Via: 1.1 stjbwbwa52
Accept-Ranges: bytes

请注意Content-Encoding:说 gzip 。这意味着您刚刚获得的结果是使用gzip算法压缩的。标准WebClient无法处理，但是使用简单的子类，WebClient可以执行新的技巧：

public class DecompressWebClient:WebClient
{
    // moved common logic here
    public DecompressWebClient()
    {
        this.Encoding = Encoding.UTF8;
    }

    // This is the factory to create the webrequest
    protected override WebRequest GetWebRequest(Uri address)
    {
        // get the default one
        var request = base.GetWebRequest(address);
        // see if it is a HttpWebRequest
        var httpReq = request as HttpWebRequest;
        if (httpReq != null)
        {
            // add extra capabilities, like decompression
            httpReq.AutomaticDecompression =  DecompressionMethods.GZip;
        }
        return request;
    }
}

在HttpWebRequest上存在一个属性AutomaticDecompression，当设置为true时，将为我们处理解压缩。

当您使用Subclassed WebClient时，您的代码将如下所示：

string url = "http://bet.hkjc.com";
using(WebClient webClient = new DecompressWebClient())
{
    string html = webClient.DownloadString(url);
    File.WriteAllText("page.html", html);
}

编码UTF8是正确的，您也可以在标题中看到Content-Type设置。

html文件的顶部如下所示：

<html>
<head>
  <meta http-equiv="X-UA-Compatible" content="IE=EmulateIE7; IE=EmulateIE10"/>
  <meta name="application-name" content="香港賽馬會"/>
  <title>香港賽馬會</title>

C＃WebClient奇怪的人物

1 个答案: