我正在尝试使用lxml和iterparse方法编写一个解析器来逐步执行包含许多项的非常大的xml文件。
我的文件格式为:
<item>
<title>Item 1</title>
<desc>Description 1</desc>
<url>
<item>http://www.url1.com</item>
</url>
</item>
<item>
<title>Item 2</title>
<desc>Description 2</desc>
<url>
<item>http://www.url2.com</item>
</url>
</item>
到目前为止我的解决方案是:
from lxml import etree
context = etree.iterparse( MYFILE, tag='item' )
for event, elem in context :
print elem.xpath( 'description/text( )' )
elem.clear( )
while elem.getprevious( ) is not None :
del elem.getparent( )[0]
del context
当我运行它时,我会得到类似的东西:
[]
['description1']
[]
['description2']
空白集是因为它还将子项的项标记拉出到url标记,并且它们显然没有用xpath提取的描述字段。我希望逐个解析每个项目,然后根据需要处理子字段。我有点只是学习lxml图书馆,所以我很好奇是否有办法拉出主要项目,如果遇到任何子项目?
答案 0 :(得分:4)
核心实现无论如何都要解析整个xml。 etree.iterparse只是生成器样式中的一个视图,它通过标记名称提供简单的过滤(请参阅docstring http://lxml.de/api/lxml.etree.iterparse-class.html)。 如果你想要一个复杂的过滤,你应该自己做。
解决方案:注册启动事件:
iterparse(self, source, events=("start", "end",), tag="item")
当你是“item / url / item”时,并且有一个bool知道你何时在“item”结束。