我正在尝试提取html文件的文本,但在标记内部出现以下文字:
<h3>Café<h3>
使用以下代码提取文本时:
htmlDocument.DocumentNode.SelectSingleNode("some XPath").InnerText;
我得到这个字符串“Café直接”。怎么能解决这个问题?
答案 0 :(得分:0)
我在这里已经回答了这个问题,基本上你可以要求HtmlAgilityPack检测HTML文档的编码。
答案 1 :(得分:0)
我现在知道了答案,工作时我发现了要做的方法,请转到:
htmlDocument.OptionDefaultStreamEncoding = Encoding.UTF8;
默认编码为System.Text.Encoding.Default,UTF-8允许重音