在我的mvc web应用程序中,我试图解析一个html文档。它似乎工作正常,但唯一的问题是它给了我特殊的章程,而不是正确解析æ,å,ø等字符。
这是我的代码
var html = new HtmlDocument();
html.LoadHtml(new WebClient().DownloadString("http://cricketforbundet.no/index.php/en/klubber"));
var root = html.DocumentNode;
var p = root.Descendants("table").FirstOrDefault().Descendants("tr").Skip(1).FirstOrDefault().ChildNodes.Where(i=>i.Name == "td").FirstOrDefault().InnerText;
我在 p 中得到BjørvikaÂCricketKlubb ,因为我应该得到BjørvikaCricketKlubb 。
有什么想法?我正在使用HtmlAgilityPack解析ASP.NET中的HTML
答案 0 :(得分:1)
您必须使用load
代替LoadHtml
,并确保使用UTF8
编码
WebClient webClient = new WebClient();
HtmlDocument html = new HtmlDocument();
html.Load(webClient.OpenRead("http://cricketforbundet.no/index.php/en/klubber"), Encoding.UTF8);
var root = html.DocumentNode;
var p = root.Descendants("table").FirstOrDefault().Descendants("tr").Skip(1).FirstOrDefault().ChildNodes.Where(i => i.Name == "td").FirstOrDefault().InnerText;
检查此answer