我想使用SAX解析器从xml文件解析一些数据。我的xml如下:
<categories>
<cat>Pies & past</cat>
<cat>Fruits</cat>
</categories>
为了解析这些数据,我扩展了DefaultHandler。
解析后的输出是:
cat 1 = Pies
cat 2 = &
cat 3 = past
cat 4 = Fruits
为什么会发生这种情况而不是:
cat 1 = Pies & past
cat 2 = Fruits
答案 0 :(得分:7)
我的猜测是,您将每次调用characters
视为提供cat
元素的完整文本。您应该对处理程序进行编码,以便连续调用characters
来累积文本,并且只在endElement
事件中捕获它:
public class CatHandler extends DefaultHandler {
private StringBuilder chars = new StringBuilder();
public void startElement(String uri, String lName, String qName, Attributes a)
{
final String name = qName == null ? lName : qName;
if ("cat".equals(name)) {
chars.setLength(0);
} else . . .
}
public void endElement(String uri, String lName, String qName) {
final String name = qName == null ? lName : qName;
if ("cat".equals(name)) {
String catName = chars.toString();
// do something with cat name
} else . . .
}
public void characters(char[] ch, int start, int length) {
chars.append(ch, start, length);
}
答案 1 :(得分:3)
characters()
方法不必返回完整的文本元素。相反,您应该整理每个characters()
调用中可用的文本,并在相应的endElement()
调用中将其连接起来。
来自the doc:
Parser将调用此方法来报告每个字符块 数据。 SAX解析器可以在单个中返回所有连续的字符数据 chunk,或者他们可以将它分成几个块
(我的重点)