SAX解析和特殊字符

时间:2012-11-11 22:28:04

标签: java xml-parsing saxparser

我想使用SAX解析器从xml文件解析一些数据。我的xml如下:

<categories>
 <cat>Pies &amp; past</cat>
 <cat>Fruits</cat>
</categories>

为了解析这些数据,我扩展了DefaultHandler。

解析后的输出是:

cat 1 = Pies

cat 2 = &

cat 3 = past

cat 4 = Fruits

为什么会发生这种情况而不是:

cat 1 = Pies & past

cat 2 = Fruits

2 个答案:

答案 0 :(得分:7)

我的猜测是,您将每次调用characters视为提供cat元素的完整文本。您应该对处理程序进行编码,以便连续调用characters来累积文本,并且只在endElement事件中捕获它:

public class CatHandler extends DefaultHandler {
    private StringBuilder chars = new StringBuilder();

    public void startElement(String uri, String lName, String qName, Attributes a)
    {
        final String name = qName == null ? lName : qName;
        if ("cat".equals(name)) {
            chars.setLength(0);
        } else . . .
    }

    public void endElement(String uri, String lName, String qName) {
        final String name = qName == null ? lName : qName;
        if ("cat".equals(name)) {
            String catName = chars.toString();
            // do something with cat name
        } else . . .
    }

    public void characters(char[] ch, int start, int length) {
        chars.append(ch, start, length);
    }

答案 1 :(得分:3)

characters()方法不必返回完整的文本元素。相反,您应该整理每个characters()调用中可用的文本,并在相应的endElement()调用中将其连接起来。

来自the doc

  

Parser将调用此方法来报告每个字符块   数据。 SAX解析器可以在单个中返回所有连续的字符数据   chunk,或者他们可以将它分成几个块

(我的重点)