ASP.NET Core HtmlAgilityPack编码错误

时间:2018-12-08 21:38:41

标签: c# asp.net html-agility-pack

有一些关于编码问题和HtmlAgilityPack的帖子,但未解决此问题:

由于我尝试解析的网站包含Unicode符号,例如äü我试图将编码设置为Unicode:

public class WebpageDeserializer
{
    public WebpageDeserializer() {}

    /*
     * Example address: https://www.dslr-forum.de/showthread.php?t=1930368
    */
    public static void Deserialize(string address)
    {
        var web = new HtmlWeb();
        web.OverrideEncoding = Encoding.Unicode;
        var htmlDoc = web.Load(address);
        //further decoding fails because unicode decoded characters are not proper html (looks more like chinese)
    }
}

但是现在

htmlDoc.DocumentNode.InnerHtml

看起来像这样:

  

ℼ佄呃偙⁅瑨汭倠䉕䥌⁃ⴢ⼯㍗⽃䐯䑔堠呈䱍ㄠ〮吠慲狝莹潩虑⽬䔯≎...

如果我尝试使用UTF-8iso-8859-1,则符号将转换为(以及äöü)。我该如何解决?

2 个答案:

答案 0 :(得分:1)

您的网站配置错误,实际编码为 cp1252

下面的代码应该可以工作:

var client = new HttpClient();
var buf = await client.GetByteArrayAsync("https://www.dslr-forum.de/showthread.php?t=1930368");
var html = Encoding.GetEncoding(1252).GetString(buf);
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);

答案 1 :(得分:0)

代替Encoding.Unicode使用:

web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");

(已通过您的网站和德国变音符测试)

要获取正确的编码,请检查目标网站的标题。 它包含正确的提示:

<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">