HttpWebRequest返回破碎的字符

时间:2014-06-15 15:07:52

标签: c# .net character-encoding httpwebrequest html-agility-pack

我正在阅读荷兰语网页:

HttpWebRequest oReq = (HttpWebRequest)WebRequest.Create(website);
oReq.Method  = "GET";       
HttpWebResponse resp = (HttpWebResponse)oReq.GetResponse();
HtmlDocument doc;
doc.Load(resp.GetResponseStream(), Encoding.GetEncoding("iso-8859-1"));

当我在页面中获得一些随机元素的文本时,我会得到一些奇怪的字符,而不是我在Chrome中看到的荷兰字符:

HtmlNode node = doc.DocumentNode.SelectSingleNode(xpath);
if(node != null)
{
     MessageBox.Show(node.InnerText, "--- just scrapped some xpath ---");                           
}

取代café,我得到café

我该如何解决这个问题?当我将它写入文件时,当我将它分配给richtextbox等时,我得到相同的文本,相同的文本。

1 个答案:

答案 0 :(得分:1)

将编码更改为Unicode,例如UTF-8