通过lxml.etree.iterparse在单个文件中解析多个XML声明

时间:2011-04-13 14:52:18

标签: python xml lxml elementtree

我需要解析包含各种XML文件的文件,即< xml>< / xml> < XML>< / XML> ......等等。使用etree.iterparse时,我得到以下(正确)错误:

lxml.etree.XMLSyntaxError: XML declaration allowed only at the start of the document

现在,我可以预处理输入文件,并为每个包含的XML文件生成一个单独的文件。这可能是最简单的解决方案。但我想知道是否存在适当解决这个“问题”的方法。

谢谢!

2 个答案:

答案 0 :(得分:3)

您提供的示例数据表明存在一个问题,而您提供的问题和例外表明了另一个问题。您是否将多个XML文档连接在一起,每个文档都有自己的XML声明,或者您是否有一个包含多个顶级元素的XML片段?

如果是前者,则解决方案将涉及将输入流分解为多个流,并逐个解析每个流。正如一条评论所暗示的那样,这并不一定意味着实现XML解析器。您可以在字符串中搜索XML声明,而不必解析其中的任何其他内容,只要您的输入不包含包含未转义的XML声明的CDATA部分即可。您可以编写一个类似文件的对象,该对象返回基础流中的字符,直到它到达XML声明,然后将其包装在生成器函数中,该函数将一直保持返回流,直到达到EOF。这不是微不足道的,但也不是很难。

如果你有一个包含多个顶级元素的XML片段,你可以将它们包装成一个XML元素并解析整个元素。

当然,正如大多数涉及错误XML输入的问题一样,最简单的解决方案可能只是解决产生错误输入的问题。

答案 1 :(得分:0)

我使用正则表达式来解决这个问题。假设数据是一个包含多个xml文档的字符串,该句柄是一个可以对每个文档执行某些操作的函数。执行此循环后,数据将为空,或者将包含不完整的XML文档,并且句柄函数将被调用零次或多次。

while True:
  match = re.match (r'''
        \s*                 # ignore leading whitespace
        (                   # start first group
          <(?P<TAG>\S+).*?> # opening tag (with optional attributes)
            .*?             # stuff in the middle
          </(?P=TAG)>       # closing tag
        )                   # end of first xml document
        (?P<REM>.*)         # anything else
      ''',
    data, re.DOTALL | re.VERBOSE)
  if not match:
    break
  document = match.group (1)
  handle (document)
  data = match.group ('REM')