我正在使用HtmlAgilityPack从一些网站上获取一些元数据。但是,很多网站的元数据内容都是用ISO-8857-1编码保存的,所以我得到的字符串如下:
Alt sammen under ét tag. Kontakt os i dag på
作为一个编码初学者,我完全不知道如何获得常规的UTF-8编码字符串。我试过这样的程序:
Encoding.GetEncoding("iso-8859-1").GetString(Encoding.UTF8.GetBytes(input));
它只是给了我一个更加模糊的字符串。有人能指出我正确的方向吗?当我在隔离块中写入时,即使堆栈溢出也会将iso-8859-1字符转换为正确的字符。
答案 0 :(得分:3)
"Alt sammen under ét tag. Kontakt os i dag på"
作为输出?
在这种情况下,您可能会将字符编码与html编码混淆,html编码是页面字符编码之上的另一层编码。
如果是这种情况,请使用system.web.httputility.htmldecode将字符串设置为"人类可读"。