XML UTF-8编码表示非ascii数据的正确方法是什么

时间:2012-10-23 14:49:46

标签: xml xml-parsing

当数据具有非ascii字符时,表示XML数据的正确方法是什么。以下是2个选项,这是正确有效的选项。

选项1: <?xml version="1.0" encoding="UTF-8"?>
<name>Doña</name>

选项2: <?xml version="1.0" encoding="UTF-8"?>
<name>Do&#xf1;a</name>

F1是十六进制UTF-8中的ñ的unicode。

1 个答案:

答案 0 :(得分:2)

基本上它们都是等同的和正确的。您甚至可以选择&#241;decimal Unicode codepoint

这主要取决于您的工具需要什么。如果您的工具链中有一个步骤,需要使用纯ASCII,请使用选项2.如果人们在编辑器中查看您的XML,或者文件大小是个问题,请使用选项1.大多数XML传播者现在倾向于选择1例。

请注意,XML工具可以在这些表示之间自由转换。这意味着,您永远不应该相信您的XML以一种或另一种方式。处理XML输入时,您必须支持这两个选项。