使用ElementTree解析XML文件

时间:2015-02-04 21:31:09

标签: python xml parsing elementtree

我在解析XML文件时遇到两个问题。我只想返回一组属性I.E只返回第一个Process下的属性值,我想在第二个Process下返回第二个Source。当我使用我的代码时,它返回第一个Sources下的Source和第二个Sources下的第一个Source,但是我无法返回第二个Source。

XML文件如下所示:

<!-- The description of the process -->
<Description>"This is a description"</Description>

<!-- info on process to be run -->
<Process expectFailure="false">
    <Code>Import</Code>
    <Sources>
        <Source>"Test Data"</Source>
    </Sources>
    <Destination>Buffered</Destination>
    <Properties>
        <Property code="format" value="CC"/>
        <Property code="Input" value="10N"/>
        <Property code="Method" value="BASIC"/>
        <Ppoperty code="Resolution" value="5"/>
        <Property code="Convention" value="LEFT"/>
        <Property code="Bounding" value="BUFFERED"/>
    </Properties>
</Process>

<!-- info on second process to be run (compare) -->
<Process>
    <Code>SurfaceCompare</Code>
    <Sources>
        <Source>expectedOutput</Source>
        <Source>Buffered</Source>
    </Sources>
    <Properties>
        <Property code="compare_designated" value="true"/>
        <Property code="compare_metadata" value="true"/>
        <Property code="metadata_type" value="OTHER"/>
    </Properties>
</Process>

,代码看起来像

from xml.etree import ElementTree

tree = ElementTree.parse("XML_example.xml")

description = tree.findtext("Description")
print(description)

for process in tree.findall('Process'):
    for source in process.findall('Sources'):
        source_text = source.findtext('Source')
        print(source_text)

#returns everything
for property in process.iter('Property'):
    print(property.attrib.get('code'))
    print(property.attrib.get('value'))

for process in tree.findall('Process'):
    for source in process.findall('Sources'):
        source = source.findtext('Source')
        print(source)

我尝试了很多不同的方法来使用findall,find,iter,get,getiter方法。我确信我错过了一些东西,但这是漫长的一天,对于我的生活,我无法看到我所缺少的东西。

还有能力改变XML的设置方式但我知道必须有办法解决这个问题而且它正在啃我。

为源代码输出正确的输出:

"Test Data"
expectedOutput
buffered

为属性示例正确的输出1:

format
CC
Input
10N
Method
BASIC
Convention
LEFT
Bounding
BUFFERED

示例正确的输出2:

compare_designated 
true
compare_metadata 
true
metadata_type 
OTHER

1 个答案:

答案 0 :(得分:1)

实现目标的最简单方法是使用findfindall 路径 iter 标记名称但在您的情况下使用路径会更合适。

顺便提一下,这是一种方法,你的样本缺少一个 root 元素,因此我在代码中添加了:

import xml.etree.ElementTree as ET
from StringIO import StringIO

s = '''<!-- The description of the process -->
<Description>"This is a description"</Description>

<!-- info on process to be run -->
<Process expectFailure="false">
    <Code>Import</Code>
    <Sources>
        <Source>"Test Data"</Source>
    </Sources>
    <Destination>Buffered</Destination>
    <Properties>
        <Property code="format" value="CC"/>
        <Property code="Input" value="10N"/>
        <Property code="Method" value="BASIC"/>
        <Ppoperty code="Resolution" value="5"/>
        <Property code="Convention" value="LEFT"/>
        <Property code="Bounding" value="BUFFERED"/>
    </Properties>
</Process>

<!-- info on second process to be run (compare) -->
<Process>
    <Code>SurfaceCompare</Code>
    <Sources>
        <Source>expectedOutput</Source>
        <Source>Buffered</Source>
    </Sources>
    <Properties>
        <Property code="compare_designated" value="true"/>
        <Property code="compare_metadata" value="true"/>
        <Property code="metadata_type" value="OTHER"/>
    </Properties>
</Process>'''

# once you've parsed the file, you need to **getroot()**
tree = ET.parse(StringIO('<root>' + s + '</root>')).getroot()

例如,您可以使用路径从第一个进程[1] - &gt;获取属性 - &gt;属性,使用findall,您可以访问所有属性节点,并迭代它们:

# and iterate all Property nodes, and get their attributes like this
for p in tree.findall('./Process[1]/Properties/Property'):
    print p.attrib # to get code/value, use p.attrib.get('code') etc.

因此,您获得了第一个流程/属性和所有属性的属性:

{'code': 'format', 'value': 'CC'}
{'code': 'Input', 'value': '10N'}
{'code': 'Method', 'value': 'BASIC'}
{'code': 'Convention', 'value': 'LEFT'}
{'code': 'Bounding', 'value': 'BUFFERED'}

另一个例子,使用路径获得第二个流程,第二个来源文字非常简单,只有{{1} },也是:

find

我希望您了解如何使用它们,记得使用print tree.find('./Process[2]/Sources/Source[2]').text Buffered 获取单个节点,返回节点列表,使用find,希望这会有所帮助。