使用HTMLAgilityPack进行编码

时间:2013-11-14 11:48:17

标签: c# html-agility-pack

我正在尝试解析包含特殊字符的网页,例如“é”。问题是这些字符在我的代码的最终输出中出现的方式不同。这是一个例子:

“Réalisations”成为“Réalisations”

我正在以非常基本的方式解析文档;首先我发送一个HttpWebRequest,得到响应,然后从这个响应中加载HtmlDocument,如下所示:

HtmlDocument.Load(response.GetResponseStream());

我检查的第一件事是编码,但它被正确设置为UTF-8。有谁知道什么可能导致这样的事情?

其他一些信息:

当我将HtmlDocument的html(HtmlDocument.DocumentNode.OuterHtml)复制到.txt文件中时,它首先渲染不正确,但当我关闭并打开.txt文件时,它会正确呈现。

感谢。

1 个答案:

答案 0 :(得分:1)

首次获取页面内容时,编码可能有误,与HTMLAgilityPack无关。在webrequest中设置编码时,它将被解决。