Question

我发现这令人惊讶，而且很烦人。

示例：

Decode(&rdquo;) => ”
Encode(”)       => ”

相关课程：

.NET 4:   System.Net.WebUtility
.NET 3.5: System.Web.HttpUtility

我可以理解网页可以是Unicode，但我的情况是输出不能是UTF8。

有什么东西（可能是一个HtmlWriter类）可以做到这一点而不必重新发明轮子吗？

替代解决方案：

string HtmlUnicodeEncode(string input)
{
    var sb = new StringBuilder();

    foreach (var c in input)
    {
        if (c > 127)
        {
            sb.AppendFormat("&#x{0:X4};", (int)c);
        }
        else
        {
            sb.Append(c);
        }
    }

    return sb.ToString();
}

Answer 1

无法生成同构HTML编解码器对。考虑：

HtmlDecode("&rdquo;”&#x201D;&#x201d;&#8221;") -> ”””””

你如何从”””””回到原来的字符串？

HtmlEncode必须为”选择一种编码，并将”作为最短，最易读的替代方案。只要您使用Unicode，这几乎肯定是最佳选择。

如果你不这样做，那就是另一个论点...... ”的优势在于它比”稍微更具可读性，但它只适用于HTML（不是XML），你还有回退到没有内置实体名称的所有Unicode字符的字符引用，因此它不太一致。对于字符引用编码器，使用ASCII编码创建XmlTextWriter并在其上调用writeString。

为什么HtmlEncode和HtmlDecode在.NET中不同构？

1 个答案: