Question

我正在尝试解析包含特殊字符的网页，例如“é”。问题是这些字符在我的代码的最终输出中出现的方式不同。这是一个例子：

“Réalisations”成为“Réalisations”

我正在以非常基本的方式解析文档;首先我发送一个HttpWebRequest，得到响应，然后从这个响应中加载HtmlDocument，如下所示：

HtmlDocument.Load(response.GetResponseStream());

我检查的第一件事是编码，但它被正确设置为UTF-8。有谁知道什么可能导致这样的事情？

其他一些信息：

当我将HtmlDocument的html（HtmlDocument.DocumentNode.OuterHtml）复制到.txt文件中时，它首先渲染不正确，但当我关闭并打开.txt文件时，它会正确呈现。

感谢。

Answer 1

首次获取页面内容时，编码可能有误，与HTMLAgilityPack无关。在webrequest中设置编码时，它将被解决。