如何将unicode字节序列转换为XML实体?

时间:2012-02-03 13:52:24

标签: xml unicode utf-8 xml-entities

我希望能够在我的网站上显示来自片假名的tsu (ツ)字符,而不是笑脸。

我已经找到了\343\203\204的字节序列,但我不知道如何将其表示为XML实体,以便我可以在HTML页面中显示它。

2 个答案:

答案 0 :(得分:1)

如果您的XML到HTML转换堆栈(以及提供HTML页面的Web服务器)正确支持unicode,那么它应该像将unicode代码点编写为实体(&x30c4;)一样简单。如果他们不......好吧,祝你好运ツ

答案 1 :(得分:0)

您始终可以使用字符引用ツ(基于十六进制的Unicode编号),与文档编码无关。

通过符号\343\203\204,您可能意味着三个字节的八进制表示,它构成了字符的UTF-8编码表示。如果其编码为UTF-8(默认值),则由这些字节组成的数据可以包含在XML文档中。如何执行此操作取决于用于创建XML文件的程序。

这些注意事项也适用于HTML,无论是否为XHTML格式。实际上,如果您打算在网页上使用该字符,可能会出现字体问题,因为大多数字体都不包含它。因此,在CSS中制作合适的字体建议是个好主意。更多信息:http://www.cs.tut.fi/~jkorpela/html/characters.html