解析html mvc时解码特殊字符

时间:2016-06-17 09:32:48

标签: asp.net asp.net-mvc html-agility-pack

在我的mvc web应用程序中,我试图解析一个html文档。它似乎工作正常,但唯一的问题是它给了我特殊的章程,而不是正确解析æ,å,ø等字符。

这是我的代码

var html = new HtmlDocument();
html.LoadHtml(new WebClient().DownloadString("http://cricketforbundet.no/index.php/en/klubber"));
var root = html.DocumentNode;
var p = root.Descendants("table").FirstOrDefault().Descendants("tr").Skip(1).FirstOrDefault().ChildNodes.Where(i=>i.Name == "td").FirstOrDefault().InnerText;

我在 p 中得到BjørvikaÂCricketKlubb ,因为我应该得到BjørvikaCricketKlubb

有什么想法?我正在使用HtmlAgilityPack解析ASP.NET中的HTML

1 个答案:

答案 0 :(得分:1)

您必须使用load代替LoadHtml,并确保使用UTF8编码

        WebClient webClient = new WebClient();
        HtmlDocument html = new HtmlDocument();
        html.Load(webClient.OpenRead("http://cricketforbundet.no/index.php/en/klubber"), Encoding.UTF8);
        var root = html.DocumentNode;
        var p = root.Descendants("table").FirstOrDefault().Descendants("tr").Skip(1).FirstOrDefault().ChildNodes.Where(i => i.Name == "td").FirstOrDefault().InnerText;

检查此answer