我正在尝试使用Python解析XML文件中某些标记的元素,并生成输出excel文档,该文档将包含元素并保留其层次结构。
我的问题是我无法弄清楚每个元素(通过哪个解析器迭代)的嵌套程度如何。
XML样本提取(3个元素,它们可以在其自身内任意嵌套):
<A>
<B>
<C>
</C>
</B>
</A>
<B>
<A>
</A>
</B>
以下代码使用ElementTree,可以很好地迭代元素。但我认为ElementTree无法确定每个元素的嵌套深度。见下文:
import xml.etree.ElementTree as ET
root = ET.parse('XML_file.xml')
tree = root.getroot()
for element in tree.iter():
if element.tag in ("A","B","C"):
print(element.tag)
这将以正确的顺序获取元素A,B,C的列表。但是我需要用它们的级别信息打印出来,
不仅如此:
A
B
C
B
A
但是像:
A
--B
----C
B
--A
为了能够做到这一点,我需要获得每个元素的级别。有没有适合python的解析器,可以轻松做到这一点?我会想象像&#34; element.hierarchyLevel&#34;这将返回一些整数指数...
答案 0 :(得分:4)
尝试使用递归函数,跟踪您的“级别”。
import xml.etree.ElementTree as ET
def perf_func(elem, func, level=0):
func(elem,level)
for child in elem.getchildren():
perf_func(child, func, level+1)
def print_level(elem,level):
print '-'*level+elem.tag
root = ET.parse('XML_file.xml')
perf_func(root.getroot(), print_level)
答案 1 :(得分:1)
您可以使用xml.sax.saxhandler:
import xml.sax as sax
import xml.sax.handler as saxhandler
class TreeBuilder(saxhandler.ContentHandler):
# http://docs.python.org/library/xml.sax.handler.html#contenthandler-objects
def __init__(self):
self.level = 0
def startElement(self, name, attrs):
print('--'*self.level + name)
self.level += 1
def endElement(self, name):
self.level -= 1
builder = TreeBuilder()
src = '''\
<root>
<A>
<B>
<C>
</C>
</B>
</A>
<B>
<A>
</A>
</B>
</root>
'''
sax.parseString(src, builder)
产量
root
--A
----B
------C
--B
----A