Question

当我下载HTML时，我首先查看响应标头以确定使用的编码。有时，Content-Type标头不指定编码。即使我从元标记中检索编码，例如：

<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />

内容仍然可能包含未正确解码的字符。例如，iso-8859-1通常用于编码德语字符。但是在HTML中，有以下内容：

&Ouml;ffnungszeiten

其中＆amp; Ouml是为德国角色Ö编码的。即使我使用iso-8859-1编码打开流，＆amp; Ouml仍按原样编码。如何解码HTML以便显示正确的字符。还有另一个元标记：

<meta http-equiv="language" content="de" />

并且浏览器可能正在使用它来正确解码字符。

Answer 1

事实证明，编码实际上称为“HTML编码”，并不是特定于语言，而是特定于HTML本身。使用：

HttpUtility.HtmlDecode

将转换任何不可读的字符。