Question

我尝试通过

解析java中的XML

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(new ByteArrayInputStream(msg.getBytes("UTF-8")));

一切似乎都没问题，

<data>äöü</data>

被正确解析（特别是关于德国变音符号）。

但是当我尝试解析时

<däta>xxx</däta>

解析器抛出异常，其中带有变音符号的名称似乎不起作用：

org.w3c.dom.DOMException: WFä at org.apache.harmony.xml.dom.NodeImpl.setName(NodeImpl.java:286) at
org.apache.harmony.xml.dom.AttrImpl.<init>(AttrImpl.java:55) at 
org.apache.harmony.xml.dom.DocumentImpl.createAttribute(DocumentImpl.java:324) at 
org.apache.harmony.xml.parsers.DocumentBuilderImpl.parse(DocumentBuilderImpl.jav‌a:314) at 
org.apache.harmony.xml.parsers.DocumentBuilderImpl.parse(DocumentBuilderImpl.jav‌a:321) at 
org.apache.harmony.xml.parsers.DocumentBuilderImpl.parse(DocumentBuilderImpl.jav‌a:128)

Answer 1

根据标记名称的XML specification，有效字符为：

":" | [A-Z] | "_" | [a-z] | [#xC0-#xD6] | [#xD8-#xF6] | [#xF8-#x2FF] | [#x370-#x37D] | [#x37F-#x1FFF] | [#x200C-#x200D] | [#x2070-#x218F] | [#x2C00-#x2FEF] | [#x3001-#xD7FF] | [#xF900-#xFDCF] | [#xFDF0-#xFFFD] | [#x10000-#xEFFFF]
| "-" | "." | [0-9] | #xB7 | [#x0300-#x036F] | [#x203F-#x2040]

char'ä'为0x00E4，因此位于[#xD8-#xF6]块中，并且在标记名称中有效。扔掉你的XML解析器; - ）

我如何解析德语变音符号中的XML！名字呢？

1 个答案: