在下面的XML中,我想解析它,并为age> 21的所有属性将“alcohol”的值更新为“yes”。我有一个问题,它是一个埋在其他节点内的节点。有人可以帮我理解如何处理这个问题吗?
这是再次使用XML ..
<root xmlns="XYZ" usingPalette="">
<grandParent hostName="XYZ">
<parent>
<child name="JohnsDad">
<grandChildren name="John" sex="male" age="22" alcohol="no"/>
</child>
<child name="PaulasDad">
<grandChildren name="Paula" sex="female" age="15" alcoho="no"/>
</child>
</parent>
</grandParent>
</root>
我尝试在这里找到所有并找到使用此文档的方法(http://pymotw.com/2/xml/etree/ElementTree/parse.html),但它没有找到它。例如,以下代码返回无结果
for node in tree.findall('.//grandParent'):
print node
答案 0 :(得分:2)
import xml.etree.ElementTree as ET
tree = ET.parse('data')
for node in tree.getiterator():
if int(node.attrib.get('age', 0)) > 21:
node.attrib['alcohol'] = 'yes'
root = tree.getroot()
ET.register_namespace("", "XYZ")
print(ET.tostring(root))
产量
<root xmlns="XYZ" usingPalette="">
<grandParent hostName="XYZ">
<parent>
<child name="JohnsDad">
<grandChildren age="22" alcohol="yes" name="John" sex="male" />
</child>
<child name="PaulasDad">
<grandChildren age="15" alcoho="no" name="Paula" sex="female" />
</child>
</parent>
</grandParent>
</root>
顺便说一下,由于XML使用名称空间“XYZ”,因此必须在XPath中specify the namespace:
for node in tree.findall('.//{XYZ}grandParent'):
print node
这将返回grandParent元素,但由于您要检查所有子节点,我认为在这里使用getiterator
更容易。
要在使用xml.etree.ElementTree
时保留评论,您可以使用自定义解析器Fredrik Lundh shows here:
import xml.etree.ElementTree as ET
class PIParser(ET.XMLTreeBuilder):
"""
http://effbot.org/zone/element-pi.htm
"""
def __init__(self):
ET.XMLTreeBuilder.__init__(self)
# assumes ElementTree 1.2.X
self._parser.CommentHandler = self.handle_comment
self._parser.ProcessingInstructionHandler = self.handle_pi
self._target.start("document", {})
def close(self):
self._target.end("document")
return ET.XMLTreeBuilder.close(self)
def handle_comment(self, data):
self._target.start(ET.Comment, {})
self._target.data(data)
self._target.end(ET.Comment)
def handle_pi(self, target, data):
self._target.start(ET.PI, {})
self._target.data(target + " " + data)
self._target.end(ET.PI)
tree = ET.parse('data', PIParser())
请注意,如果您安装lxml,则可以使用:
import lxml.etree as ET
parser = ET.XMLParser(remove_comments=False)
tree = etree.parse('data', parser=parser)