我正在尝试解析包含特殊字符的网页,例如“é”。问题是这些字符在我的代码的最终输出中出现的方式不同。这是一个例子:
“Réalisations”成为“Réalisations”
我正在以非常基本的方式解析文档;首先我发送一个HttpWebRequest,得到响应,然后从这个响应中加载HtmlDocument,如下所示:
HtmlDocument.Load(response.GetResponseStream());
我检查的第一件事是编码,但它被正确设置为UTF-8。有谁知道什么可能导致这样的事情?
其他一些信息:
当我将HtmlDocument的html(HtmlDocument.DocumentNode.OuterHtml)复制到.txt文件中时,它首先渲染不正确,但当我关闭并打开.txt文件时,它会正确呈现。
感谢。
答案 0 :(得分:1)
首次获取页面内容时,编码可能有误,与HTMLAgilityPack无关。在webrequest中设置编码时,它将被解决。