Question

我正在尝试提取html文件的文本，但在标记内部出现以下文字：

<h3>Café<h3>

使用以下代码提取文本时：

htmlDocument.DocumentNode.SelectSingleNode("some XPath").InnerText;

我得到这个字符串“Café直接”。怎么能解决这个问题？

Answer 1

我在这里已经回答了这个问题，基本上你可以要求HtmlAgilityPack检测HTML文档的编码。

Answer 2

我现在知道了答案，工作时我发现了要做的方法，请转到：

htmlDocument.OptionDefaultStreamEncoding = Encoding.UTF8;

默认编码为System.Text.Encoding.Default，UTF-8允许重音