避免使用lxml解析大型XML元素

时间:2017-08-11 19:01:50

标签: xml python-3.x lxml

我正在解析XML文件,其中包含嵌入在某些元素中的PDF文件。

我已经切换到iterparse()尝试清除这些元素,例如:

for event, element in iterparse(f):
    if element.xpath('local-name()') == 'AttachedFile':
        element.clear()

但它不起作用。

每个文档可以有多个AttachedFile元素,我注意到上面的代码甚至没有到达第二个元素,即它立即引发lxml.etree.XMLSyntaxError: xmlSAX2Characters: huge text node

有什么方法可以告诉解析器甚至不尝试解析这些元素?或任何其他解决方法?

0 个答案:

没有答案