为什么WebClient或HttpWebResponce / Request与我在浏览器中查看页面源时的编码方式不同?此外,如果他们找不到合适的编码,他们会向我显示奇怪的符号。例如:当我尝试下载 - http://www.li.ru时 - 在页面源中它是utf-8,从WebClient或HttpWebResponce /请求它是windows-1251。
任何帮助将不胜感激。
答案 0 :(得分:0)
您只需要在您请求的网页上强制编码相同。
使用WebClient,您可以执行以下操作:
using(WebClient webClient = new WebClient())
{
webClient.Encoding = Encoding.UTF8;
string s = webClient.DownloadString("http://wwww.li.ru");
}
使用HttpWebResponse / Request:
HttpWebRequest webRequest = HttpWebRequest.CreateHttp("http://www.li.ru");
using (HttpWebResponse response = (HttpWebResponse)webRequest.GetResponse())
{
using (Stream resStream = response.GetResponseStream())
{
StreamReader reader = new StreamReader(resStream, Encoding.UTF8);
return reader.ReadToEnd();
}
}
修改强>
只需将固定编码扩展为以下代码:
var enc = Encoding.Default;
if (!string.IsNullOrEmpty(response.CharacterSet))
{
var charSet = response.CharacterSet;
if (charSet == "ISO-8859-1")
charSet = "windows-1251";
enc = Encoding.GetEncoding(charSet);
}
StreamReader reader = new StreamReader(resStream, enc);
return reader.ReadToEnd();
有关详细说明,您可以查看此页面: http://blogs.msdn.com/b/feroze_daud/archive/2004/03/30/104440.aspx