如何解析文件中的第二个xml树

时间:2012-01-30 10:31:34

标签: python xml lxml scrapy

假设我有一个像

这样的XML文件
<?xml version="1.0" encoding="utf-8"?>
<items>
  <?xml version="1.0" encoding="utf-8"?>
  <items>
    <item>
      <price>1500</price>
      <info> asfgfdff</info>
    </item>
  </items>

如何解析以便解析器选择最近更新的xml树?

1 个答案:

答案 0 :(得分:0)

with open('file','r') as f:
    newestXml = []
    for line in f.readlines():
        if re.search('^<\?xml',line):
            newestXml = [line]
        else:
            newestXml.append(line)

在循环结束时,newestXml将包含从最后一次出现<?xml到文件末尾的所有行。 现在,您可以组合这些行并使用xml解析器来解析xml。

注意 - 我现在无法检查此代码,因此可能包含小错误,但我希望这个想法可以帮助您。