根据语言解码HTML内容

时间:2013-12-06 07:13:54

标签: c# html decode

当我下载HTML时,我首先查看响应标头以确定使用的编码。有时,Content-Type标头不指定编码。即使我从元标记中检索编码,例如:

<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" /> 

内容仍然可能包含未正确解码的字符。例如,iso-8859-1通常用于编码德语字符。但是在HTML中,有以下内容:

&Ouml;ffnungszeiten

其中&amp; Ouml是为德国角色Ö编码的。即使我使用iso-8859-1编码打开流,&amp; Ouml仍按原样编码。如何解码HTML以便显示正确的字符。还有另一个元标记:

<meta http-equiv="language" content="de" />

并且浏览器可能正在使用它来正确解码字符。

1 个答案:

答案 0 :(得分:0)

事实证明,编码实际上称为“HTML编码”,并不是特定于语言,而是特定于HTML本身。使用:

HttpUtility.HtmlDecode

将转换任何不可读的字符。