我正在处理韩文文档,HTML源代码包含以& #char(w)开头的特殊符号,例如,现在我想将此符号转换为其Unicode represntation。
有没有办法这样做。
答案 0 :(得分:1)
首先,通过将代码点转换为int
来获取代码点。然后,使用String.Format
获取Unicode代码字符串:
string result = string.Format("\\u{0:x4}", (int) chr);
或:
string result = "\\u" + ((int) chr).ToString("x4");
答案 1 :(得分:1)
HTML使用&#和& #x表示法来编码Unicode字符。因此,您的文档已经包含一种可能的Unicode表示法中的字符。
如果序列以& #x开头,则以下字符是字符的十六进制代码。如果序列以&#开头,则以下数字是字符的十进制代码。
使用ToString(“x4”)将这些代码转换为十六进制,如Konrad的答案所示。