我正在解析XML文件,其中包含嵌入在某些元素中的PDF文件。
我已经切换到iterparse()
尝试清除这些元素,例如:
for event, element in iterparse(f):
if element.xpath('local-name()') == 'AttachedFile':
element.clear()
但它不起作用。
每个文档可以有多个AttachedFile
元素,我注意到上面的代码甚至没有到达第二个元素,即它立即引发lxml.etree.XMLSyntaxError: xmlSAX2Characters: huge text node
。
有什么方法可以告诉解析器甚至不尝试解析这些元素?或任何其他解决方法?