遇到HtmlAgilityPack问题。我无法解析西里尔文本,它看起来像一些未知的符号。
HtmlWeb webGet = new HtmlWeb();
webGet.OverrideEncoding = Encoding.UTF8;
HtmlAgilityPack.HtmlDocument doc = webGet.Load("http://vk.com/glitchhop");
HtmlNode myNode = doc.DocumentNode.SelectSingleNode("//div[@id='page_wall_posts']/*[2]//div[@class='wall_post_text']");
if (myNode != null)
return myNode.InnerText;
else return "Nothing found";
还附上错误示例以及该文本应如何显示
答案 0 :(得分:2)
此问题与HTMLAgilityPack无关,它是由您使用的错误编码引起的。
您尝试解析的网页是使用windows-1251
编码进行编码的。
将webGet.OverrideEncoding
从Encoding.UTF8
更改为Encoding.GetEncoding(1251)
应该会对您有所帮助。