如何使用SAX正确解析XML?

时间:2010-11-16 23:30:24

标签: java xml parsing sax

我从REST服务接收XML文档,该文档应使用SAX进行解析。请参阅以下由XSD生成的示例。

设置解析器不是问题。我的主要问题是startElement()endElement()方法等中的实际处理。我不明白如何提取我需要的项目并存储它们,因为它们有点“嵌套”。

实施例

ConnectionList可能会发生一次或两次,并且可能包含任意数量的Connection元素,而这些元素又包含有关连接的详细信息。基本上,我需要一个包含DateTransfersTime所有关联的列表。我是否必须为每个元素创建一个类?

据我所知,我不知何故需要做以下事情: 如果解析器遇到...

  • ConnectionList:创建新的ConnectionList对象并将其放入ConnectionList s
  • 列表中
  • Connection:创建一个新的Connection对象并将其放入Connections列表
  • DateTransfersTime(仅当父级为Duration时):将节点值存储在当前Connection对象中

我非常感谢任何帮助,提示,想法,摘要我是如何实现这一目标的。

谢谢: - )

罗伯特

<?xml version="1.0" encoding="UTF-8"?>
<ResC xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <Err code="r5E5a1Wm" text="tk-gWYbw" level="E"/>
    <Err code="takVDd34" text="XtvyjmjPuscK" level="E"/>
    <Err code="hQ1-:aDQ" text="YWc5qtY.gkwCeJW2S" level="E"/>
    <ConRes dir="R">
        <Err code="ZfwPC:tj" text="RKKFuLXoM0oOfp3a" level="E"/>
        <Err code="bhDjSJPa" text="BJoHuOMdwzhcddW" level="E"/>
        <Err code="CX-NhK9r" text="j55qy-WiNPXu" level="E"/>
        <ConResCtxt b="1" f="1">0815</ConResCtxt>
        <ConnectionList type="IV">
            <Err code="WI3WX.jo" text="rK3H5jwa-Zfen3" level="E"/>
            <Connection id="ID000">
                <Overview>
                    <Date>b3lcM_Yiyq7dqL9</Date>
                    <Departure>
                        <BasicStop type="NORMAL" index="-1086549314">
                            <Address externalId="t.EdKe93xkqFqLwPzgd-4vHSJemy8"
                                externalStationNr="1332105793" name="fdREYJPu83WV503V8szdCX"
                                x="951177990" y="-1579782776" z="1807457957" type="WGS84"/>
                        </BasicStop>
                    </Departure>
                    <Arrival>
                        <BasicStop type="NORMAL" index="1897526979">
                            <Address externalId="l7h_GTUit6fv" externalStationNr="-1670310329"
                                name="WJznDTzkTvyET51pfr7X" x="-1738098662" y="-170353174"
                                z="-475585957" type="WGS84"/>
                        </BasicStop>
                    </Arrival>
                    <Transfers>dZbgZfDH8j1hb1i</Transfers>
                    <Duration>
                        <Time>00d00:18:00</Time>
                    </Duration>
                    <ServiceDays> </ServiceDays>
                    <Products>
                        <Product cat="qmrN2dShHJp"/>
                        <Product cat="Hg"/>
                        <Product cat="nurxhdl3w.P0x7FRv2J3UoF"/>
                    </Products>
                    <ContextURL url="http://FzgEqiVC/"/>
                </Overview>
            </Connection>
            <Connection id="ID004">
                <Overview>
                    <Date>W5a47DRkc7XDZjhwq_s5Un.</Date>
                    <Departure>
                        <BasicStop type="NORMAL" index="-1014429844">
                            <Address externalId="RMnzjEFOTTdM1oaAUw" externalStationNr="1429101638"
                                name="HF-1" x="1005198487" y="570832676" z="975615566" type="WGS84"
                            />
                        </BasicStop>
                    </Departure>
                    <Arrival>
                        <BasicStop type="NORMAL" index="-58308182">
                            <Address externalId="rVdwdQvAukfj2QcA7b3OSdGOyW"
                                externalStationNr="1142334006" name="g" x="-1791416159"
                                y="-541300941" z="478129823" type="WGS84"/>
                        </BasicStop>
                    </Arrival>
                    <Transfers>GG56XN6zgiJF804mE_N4o</Transfers>
                    <Duration> </Duration>
                    <ServiceDays> </ServiceDays>
                    <Products>
                        <Product cat="fs_Oyoy9NYBai-qaxbty6j9Y7r1St"/>
                        <Product cat="P2CbaSGpC"/>
                        <Product cat="CGZrqSIDM6M4kUlb8_xZ8jRlH4c"/>
                    </Products>
                    <ContextURL url="http://JkRhuXtu/"/>
                </Overview>
            </Connection>
        </ConnectionList>
        <ConnectionList type="IV">
            <Err code="0lFWRY2X" text="KLmdczFRhV" level="E"/>
            <Connection id="ID012">
                <Overview>
                    <Date>t8mn634zjCZsRPyxj_e_-UYMH</Date>
                    <Departure>
                        <BasicStop type="NORMAL" index="-2095085423">
                            <Address externalId="ftKAFG-Uk7x" externalStationNr="1390920810"
                                name="JQrQXOQbm.FLaCMeSiTYjT" x="1970142849" y="-655980297"
                                z="2102464970" type="WGS84"/>
                        </BasicStop>
                    </Departure>
                    <Arrival>
                        <BasicStop type="NORMAL" index="1552118247">
                            <Address externalId="qcBpeuPDRzvSt1o" externalStationNr="-1133118359"
                                name="AJiJOB1t" x="-1422533132" y="-1158953133" z="484831466"
                                type="WGS84"/>
                        </BasicStop>
                    </Arrival>
                    <Transfers>D0MiUwW9nuuM_uykvawg2C07pwHL</Transfers>
                    <Duration> </Duration>
                    <ServiceDays> </ServiceDays>
                    <Products>
                        <Product cat="LpGOZbLDbJm"/>
                        <Product cat="JIv-szQVX2icPb"/>
                        <Product cat="Q7-pthWoOT"/>
                    </Products>
                    <ContextURL url="http://zGWgivvi/"/>
                </Overview>
                <IList>
                    <I header="ze4Wt3hVD-DvjujY6QKae" text="lVwB4RxAHcYq3.F"
                        uriCustom="iVjQJCoU1MVOv2Z9lwarP"/>
                    <I header="z-i.au59soMzXLZCbV" text="PoTP" uriCustom="ksrbwEH6scNR"/>
                    <I header="N" text="jHDA4" uriCustom="ub95811lMIa_495ZbPOuNWL0rRWh"/>
                </IList>
                <CommentList>
                    <Comment id="ID013">
                        <Text lang="EN"> </Text>
                        <Text lang="FR"> </Text>
                        <Text lang="PL"> </Text>
                    </Comment>
                    <Comment id="ID014">
                        <Text lang="DK"> </Text>
                        <Text lang="IT"> </Text>
                        <Text lang="IT"> </Text>
                    </Comment>
                    <Comment id="ID015">
                        <Text lang="MACRO"> </Text>
                        <Text lang="IT"> </Text>
                        <Text lang="EN"> </Text>
                    </Comment>
                </CommentList>
            </Connection>
        </ConnectionList>
    </ConRes>
</ResC>

6 个答案:

答案 0 :(得分:7)

我发现(到目前为止)使用SAX解析XML的最好方法是在相关的回调中使用堆栈和条件语句。 Here's an article describing it,以及我对它的总结:

基本前提是,在解析文档时,您可以创建对象来存储已分析的数据,随时将它们推送到堆栈中,查看堆栈顶部以将数据添加到当前元素,以及每个元素的结尾将其从堆栈中弹出并将其存储在父级中。

效果是你首先解析元素树的深度,然后在每个分支的末尾将它回滚到父节点,直到你留下一个包含所有元素的单个对象(例如你的ConnectionList)。解析后的数据准备使用。从本质上讲,您最终会得到一系列反映原始XML结构的对象

这意味着您需要一些可以将数据存储在与XML相同结构中的数据对象。复杂元素通常会成为类,而简单元素通常是类中的属性。根元素通常由某种列表表示。

首先,创建一个堆栈对象,在解析数据时保存数据。

然后,在每个元素的开头,使用localName.equals()方法确定它的类型,创建相应类的实例,并将其推入堆栈。如果元素是一个简单元素,您可能会将其作为表示父元素的类中的属性进行建模,并且您将需要一系列标志来告诉解析器是否遇到这样的元素以及它是什么元素因此它可以用characters()方法处理。

使用characters()方法读取实际数据,并再次使用条件逻辑根据标志的值确定如何处理数据。基本上,您可以查看堆栈的顶部并使用适当的方法将数据写入对象,并在必要时从文本进行转换。

在每个元素的末尾,弹出堆栈的顶部并再次使用localName.equals()来确定如何将它存储在对象之前(例如,需要调用哪个setter方法)

当您到达文档的末尾时,您应该已经捕获了文档中的所有数据。

答案 1 :(得分:6)

您的SAX事件处理程序应该充当状态机。你的结构很深,所以状态机会有点复杂;但这是基本方法:

所有变量都是成员变量。

当遇到startElement事件时,您实例化一个表示该元素的对象,然后将该对象放在堆栈上(或设置一个标志,指示您正在使用的值)。

遇到文本事件时,请阅读文本并根据您在上一步中设置的标记设置适当的值。

当遇到endElement事件时,将当前对象拉出堆栈并调用现在位于堆栈顶部的对象上的setter。

当你耗尽文档时,你应该只有一个对象留在堆栈上,代表你读过的所有东西。

答案 2 :(得分:1)

如果它是一个相当小的xml文档,并且内存/吞吐量限制对内存解决方案不是禁止的,那么您可以使用JAXB。您可以从XSD生成所需的类,只需将xml解组为java对象即可。如果你必须使用流解析器,那么考虑使用StAX,我通常会发现这更直观。

答案 3 :(得分:1)

一般来说,你有几个选择:

  1. 使用自定义对象将XML映射到,这些对象将封装更多对象,就像XML元素嵌套一样。
  2. 进行通用解析并通过相关元素遍历DOM。
  3. 据我所知,有一些工具,例如JAXB,它们将根据XSD生成你的类,但它们有时会带来生成代码的价格。

    如果选择选项1并“自己动手”,则需要提供进出XML和大部分字符串的解组和编组方法。类似的东西:

    <Foo>
      <Bar>
        <Baz></Baz>
      </Bar>
      <Thing></Thing>
    </Foo>
    
    // pseudo-code!
    //In Foo.java
    unmarshal( Element element ) {
     unmarshalBar( element );
     unmarshalThing( element );
    }
    
    unmarshalBar( Element element ) {
     //...verify that the element is bar
     bar = new Bar();
     bar.unmarshal( element );
    }
    
    //In Bar.java
    unmarshal( Element element ) {
     unmarshalBaz( element );
    }
    

    希望这有帮助。

答案 4 :(得分:1)

我通常将对象放在堆栈上,并在解析XML文件时推送/弹出它们(如果对象是嵌套的,则特别有用,但这不是你的情况)。

如果您想要一种更简单的方法,则需要指向当前ConnectionList和当前Connection的指针。由于您已经知道文件的结构,因此这比使用基于堆栈的解析器更容易。

答案 5 :(得分:1)

SAX解析器有点像通过一个微小的间谍洞看大图片。

回调将一次为您呈现一个XML结构。它不会给你任何线索,因为你在文档中的位置只显示了一个数据。元素名称,属性名称/值或文本内容。

您的程序需要跟踪您在文档中的位置。如果你正在动态解析一个简单的堆栈结构 - 当你得到一个“beginelement”时你将名字推到堆栈上,然后你在“苦恼”上弹出堆栈。

如果你发现自己正在构建一个树形结构,我会切换到一个DOM解析器,因为你写的任何内容都会像XERCES一样苍白而多变的阴影。