Question

我正在尝试使用async和await以及HttpClient下载网页，但我只得到一个充满特殊字符的字符串......代码就像..

(\w*_u\w*)

和网址

static async void DownloadPageAsync(string url)
{
    HttpClient client = new HttpClient();
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html,application/xhtml+xml,application/xml");
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
    client.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0");
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Charset", "ISO-8859-1");
    HttpResponseMessage response = await client.GetAsync(url);
    response.EnsureSuccessStatusCode();
    var responseStream = await response.Content.ReadAsStreamAsync();
    var streamReader = new StreamReader(responseStream);
    var str = streamReader.ReadToEnd();

}

当我做的时候

url = @"http://www.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm";

代替那四个DefaultRequestHeaders，我得到403错误，但这是nse网站，并且对所有人都是免费的。请各位朋友帮我们正确回复.. 问候

塔瓦

Answer 1

client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");

通过此操作，您告诉服务器您允许它压缩响应gzip / deflate。所以响应实际上是压缩的，这就解释了为什么你会得到你得到的那种响应文本。

如果您想要纯文本，则不应添加标题，因此服务器不会压缩响应。如果删除上面的行，则会得到正常的HTML响应文本。

或者，您当然可以保留该标头，并在收到后使用GZipStream解压缩响应。这将是这样的：

using (var responseStream = await response.Content.ReadAsStreamAsync())
using (var deflateStream = new GZipStream(responseStream, CompressionMode.Decompress))
using (var streamReader = new StreamReader(deflateStream))
{
    var str = streamReader.ReadToEnd();
    Console.WriteLine(str);
}

理想情况下，您应该检查response.Content.Headers.GetValues("Content-Encoding")的值，以确保编码为gzip。由于您还接受了deflate作为可能的编码，因此您可以使用DeflateStream对其进行解码;或者在Content-Encoding标头丢失的情况下不解码任何内容。

HttpClient返回特殊字符但没有可读性

1 个答案: