我在Java中解析包含数字字符实体字符的XML,例如(但不限于) < >
(换行回车&lt;&gt;)。在解析时,我将节点的文本内容附加到StringBuffer,以便稍后将其写入文本文件。
但是,当我将String写入文件或将其打印出来时,这些unicode字符将被解析或转换为换行符/空格。
如何在Java中迭代XML文件的节点并将文本内容节点存储到String中时,如何保留原始数字字符实体字符符号?
demo xml文件的示例:
<?xml version="1.0" encoding="UTF-8"?>
<ABCD version="2">
<Field attributeWithChar="A string followed by special symbols " />
</ABCD>
示例Java代码。它加载XML,遍历节点并将每个节点的文本内容收集到StringBuffer。迭代结束后,它将StringBuffer写入控制台,也写入文件(但没有
)符号。
将这些符号存储到String时,保留这些符号的方法是什么?请你帮助我好吗?谢谢。
public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException, TransformerException {
DocumentBuilderFactory documentFactory = DocumentBuilderFactory.newInstance();
Document document = null;
DocumentBuilder documentBuilder = documentFactory.newDocumentBuilder();
document = documentBuilder.parse(new File("path/to/demo.xml"));
StringBuilder sb = new StringBuilder();
NodeList nodeList = document.getElementsByTagName("*");
for (int i = 0; i < nodeList.getLength(); i++) {
Node node = nodeList.item(i);
if (node.getNodeType() == Node.ELEMENT_NODE) {
NamedNodeMap nnp = node.getAttributes();
for (int j = 0; j < nnp.getLength(); j++) {
sb.append(nnp.item(j).getTextContent());
}
}
}
System.out.println(sb.toString());
try (Writer writer = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream("path/to/demo_output.xml"), "UTF-8"))) {
writer.write(sb.toString());
}
}
答案 0 :(得分:3)
在将文件解析为Document
之前,您需要转义所有XML实体。您可以通过使用相应的XML实体&
转义&符号 &
本身来实现此目的。像,
DocumentBuilder documentBuilder =
DocumentBuilderFactory.newInstance().newDocumentBuilder();
String xmlContents = new String(Files.readAllBytes(Paths.get("demo.xml")), "UTF-8");
Document document = documentBuilder.parse(
new InputSource(new StringReader(xmlContents.replaceAll("&", "&"))
));
输出:
2A string followed by special symbols
答案 1 :(得分:2)
P.S。这是Ravi Thapliyal答案的补充,而不是替代方案。
我在处理从2003格式Excel表格导出的XML文件时遇到同样的问题。此XML文件将文本内容中的换行符存储为
以及其他数字字符引用。但是,在用Java DOM解析器读取它之后,操纵一些元素的内容并将其转换回XML文件,我看到所有数字字符引用都被扩展(即换行符被转换为CRLF
)在Windows中使用J2SE1.6。由于我的目标是在操作某些元素时尽可能保持内容格式不变(即保留数字字符引用),Ravi Thapliyal的建议似乎是唯一可行的解决方案。
将XML内容写回文件时,有必要将所有&
替换为&
,对吗?为此,我必须将StringWriter作为StreamResult提供给转换器并从中获取String,替换all并将字符串转储到xml文件。
TransformerFactory tf = TransformerFactory.newInstance();
Transformer t = tf.newTransformer();
DOMSource source = new DOMSource(document);
//write into a stringWriter for further processing.
StringWriter stringWriter = new StringWriter();
StreamResult result = new StreamResult(stringWriter);
t.transform(source, result);
//stringWriter stream contains xml content.
String xmlContent = stringWriter.getBuffer().toString();
//revert "&" back to "&" to retain numeric character references.
xmlContent = xmlContent.replaceAll("&", "&");
BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(outputFile), "UTF-8"));
wr.write(xmlContent);
wr.close();