为什么HtmlEncode和HtmlDecode在.NET中不同构?

时间:2013-04-17 10:14:12

标签: .net unicode html-entities html-encode

我发现这令人惊讶,而且很烦人。

示例:

Decode(”) => ”
Encode(”)       => ”

相关课程:

.NET 4:   System.Net.WebUtility
.NET 3.5: System.Web.HttpUtility

我可以理解网页可以是Unicode,但我的情况是输出不能是UTF8。

有什么东西(可能是一个HtmlWriter类)可以做到这一点而不必重新发明轮子吗?

替代解决方案:

string HtmlUnicodeEncode(string input)
{
    var sb = new StringBuilder();

    foreach (var c in input)
    {
        if (c > 127)
        {
            sb.AppendFormat("&#x{0:X4};", (int)c);
        }
        else
        {
            sb.Append(c);
        }
    }

    return sb.ToString();
}

1 个答案:

答案 0 :(得分:8)

无法生成同构HTML编解码器对。考虑:

HtmlDecode("”””””") -> ”””””

你如何从”””””回到原来的字符串?

HtmlEncode必须为选择一种编码,并将作为最短,最易读的替代方案。只要您使用Unicode,这几乎肯定是最佳选择。

如果你不这样做,那就是另一个论点...... ”的优势在于它比”稍微更具可读性,但它只适用于HTML(不是XML),你还有回退到没有内置实体名称的所有Unicode字符的字符引用,因此它不太一致。对于字符引用编码器,使用ASCII编码创建XmlTextWriter并在其上调用writeString