使用元素树获取值

时间:2013-02-14 10:15:29

标签: python elementtree xml.etree

我想获取特定组件的某些值。例如,我想从下面的输出中只获取2个值(即Component - > name:paristrain和Stat - > TimeoutValue:value)。我试图用xpath做这个,但我无法得到所需的输出。你能帮帮我吧吗?

from xml.etree import ElementTree

with open('rejexstats.xml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.iter():
    print node.tag, node.attrib

打印:

Statistics {}
{http://www.rejex.com/stats}Server {'start': '2013-01-22T22:30:13.583', 'product': 'rejex', 'end': '2013-01-23T09:39:45.249', 'startup': '2013-01-22T22:30:13.583', 'name': 'localhost'}
{http://www.rejex.com/statistics}Component {'subtype': 'Thread', 'type': 'Supplier', 'name': 'paristrain'}
{http://www.rejex.com/statistics}Stat {'type': 'entry', 'name': 'TimeoutValue', 'value': '120'}
{http://www.rejex.com/statistics}Stat {'type': 'entry', 'name': 'PendingRequests', 'value': '0'}
{http://www.rejex.com/statistics}Stat {'type': 'entry', 'name': 'Session|0|SupplierTimeout', 'value': '0'}
{http://www.rejex.com/statistics}Stat {'type': 'entry', 'name': 'Session|0|Errors', 'value': '0'}
{http://www.rejex.com/statistics}Stat {'type': 'entry', 'name': 'Session|3|SupplierTimeout', 'value': '0'}
{http://www.rejex.com/statistics}Stat {'type': 'entry', 'name': 'ApplyRulesErrors', 'value': '0'}

XML文件

<Statistics>
    <Server end="2013-02-14T07:06:35.533" name="localhost" product="regex" start="2013-02-13T22:30:12.982" startup="2013-02-13T22:30:12.982">
        <Component name="paristrain" subtype="Thread" type="Supplier">
            <Stat name="TimeoutValue" type="entry" value="120"/>
            <Stat name="PendingRequests" type="entry" value="0"/>
            <Stat name="Session|0|SupplierTimeout" type="entry" value="0"/>
            <Stat name="Session|0|Errors" type="entry" value="0"/>
            <Stat name="Session|3|SupplierTimeout" type="entry" value="0"/>
            <Stat name="ApplyRulesErrors" type="entry" value="0"/>
            <Stat name="LateResponses" type="entry" value="0"/>
            <Stat name="CacheTries" type="entry" value="0"/>
            <Stat name="Session|4|Errors" type="entry" value="0"/>
            <Stat name="MaxActiveThreads" type="entry" value="0"/>
            <Stat name="MaxPendingQueueSize" type="entry" value="10"/>
            <Stat name="ValidResponses" type="entry" value="0"/>
            <Stat name="TranslateResponses" type="entry" value="0"/>

1 个答案:

答案 0 :(得分:0)

您需要在XPath查询中包含完整的命名空间:

for component in tree.iterfind('{http://www.rejex.com/statistics}Component'):
    print component.attrib['name']

或者,您可以使用显式命名空间映射,将前缀(您选择)映射到命名空间URI:

nsmap = {'rej': 'http://www.rejex.com/statistics`}

for stat in tree.iterfind('rej:Stat', namespaces=nsmap):
    print stat.attrib['value']

rej前缀以namespaces传入的任何内容进行查找,然后转换为第一个示例中给出的相同XPath查询。

您可以展开{namespace} xpath限定符以查找更复杂的匹配项:

tree.find(
    "{http://www.rejex.com/statistics}Component[@name='paristrain']/"
    "{http://www.rejex.com/statistics}Stat[@name='TimeoutValue']")

应该返回Stat元素,该元素具有属性name="TimeoutValue",其父级为Component元素,例如{。}}属性。