使用HTML Agility Pack进行错误编码

时间:2013-02-10 01:24:56

标签: unicode encoding character-encoding html-agility-pack

我试图解析http://www.wein-wg.de/wwg/rheinhessen/worms-pfeddersheim/weingut-goldschmidt/,但无法获得正确的字符集。该网站正在使用iso-8859-1。不知何故,所有unicode字符都显示为?在Visual Studio中。

是否有可能在Visual Studio或其他任何地方将其传输到正确的字符集?

3 个答案:

答案 0 :(得分:1)

using HtmlAgilityPack;

HtmlDocument doc;
HtmlWeb web = new HtmlWeb();

private void getPage(string url)
{
    web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");
    doc = web.Load(url);
    webBrowser1.DocumentText = doc.DocumentNode.OuterHtml;
}

getPage("http://www.wein-wg.de/wwg/rheinhessen/worms-pfeddersheim/weingut-goldschmidt/");

答案 1 :(得分:1)

解决:

posts
post_text_fields
text_fields_in_post

答案 2 :(得分:0)

其他方式:

 var url = "https://www.elmundo.es/espana/2019/09/19/5d835eedfdddff788e8b45bd.html";
 var web = new HtmlWeb();
 web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");

 var doc = web.Load(url); //.OptionDefaultStreamEncoding = Encoding.UTF8; 

 HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//p");


 foreach (var node in nodes)
 {

   txt_contenido.AppendText(node.InnerText + "\n" );

 }

再见