根据this thread,我使用xml.dom.minidom
进行一些非常基本的XML遍历,只读。
让我感到困惑的是,为什么getElementsByTagName
正在寻找多个层次结构级别的节点,而没有明确地为它提供精确的路径。
XML:
<data>
<items>
<item name="item1"></item>
<item name="item2"></item>
<item name="item3"></item>
<item name="item4"></item>
</items>
<secondSetOfItems>
<item name="item5"></item>
<item name="item6"></item>
<item name="item7"></item>
<item name="item8"></item>
</secondSetOfItems>
</data>
Python代码:
xmldoc = minidom.parse('sampleXML.xml')
items = xmldoc.getElementsByTagName('item')
for item in items:
print item.attributes['name'].value
打印:
item1
item2
item3
item4
item5
item6
item7
item8
让我感到困扰的是,它隐含地在item
和data->items
下找到了名为data->secondSetOfItems
的标签。
如何使其遵循显式路径并仅提取两个类别之一的项目?例如。在data->secondSetOfItems
下:
item5
item6
item7
item8
答案 0 :(得分:7)
如果您想从特定类别中获取项目,可以先抓住父元素来实现。
例如:
<强>代码强>:
xmldoc = minidom.parse('sampleXML.xml')
#Grab the first occurence of the "secondSetOfItems" element
second_items = xmldoc.getElementsByTagName("secondSetOfItems")[0]
item_list = second_items.getElementsByTagName("item")
for item in item_list:
print item.attributes['name'].value
<强>输出强>:
item5
item6
item7
item8
答案 1 :(得分:1)
搜索具有特定元素类型名称的所有后代(直接孩子,孩子的孩子等)。
有人写了一个“过滤器”,请参阅this answer
在我看来minidom太简单了,考虑使用lxml xpath:
tree.xpath('//secondSetOfItems/item/@name')
或BeautifulSoup findAll:
data.secondSetOfItems.item.findAll('name')