xml中的最后一个元素没有被拾取

时间:2011-09-24 16:15:22

标签: python-3.x lxml

下面有一个python 3脚本应该下载一个xml文件并将其拆分成较小的文件,每个文件只有500个项目。我有两个问题:

  1. 原始xml中的最后一项不存在于拆分文件
  2. 如果原始xml长度为1000个项目,则会创建第3个空xml文件。
  3. 有人能告诉我在我的代码中可能出现这样的错误导致这些症状吗?

    import urllib.request as urllib2
    from lxml import etree
    
    def _yield_str_from_net(url, car_tag):
    
        xml_file = urllib2.urlopen(url)
        for _, element in etree.iterparse(xml_file, tag=car_tag):
            yield etree.tostring(element, pretty_print=True).decode('utf-8')
            element.clear()
    
    def split_xml(url, car_tag, save_as):
    
        output_file_num = 1
        net_file_iter = _yield_str_from_net(url, car_tag)
        while True:
            file_name = "%s%s.xml" % (save_as, output_file_num)
            print("Making %s" % file_name)
            with open(file_name, mode='w', encoding='utf-8') as the_file:
                for elem_count in range(500):    # want only 500 items
                    try:
                        elem = next(net_file_iter)
                    except StopIteration:
                        return
                    the_file.write(elem)
                    print("processing element #%s" % elem_count)
            output_file_num += 1
    
    if __name__ == '__main__':
        split_xml("http://www.my_xml_url.com/",
                  'my_tag',
                  'my_file')
    

1 个答案:

答案 0 :(得分:1)

第二个不是错误,而是设计。在读取1000个元素之后,迭代器还不知道没有其他项目因此继续while True循环。

如果迭代器有hasNext,那么你可以用while hasNext替换它以便克服这个问题。不幸的是python中没有这样的东西。

对于第一个问题:目前我在代码中看不到任何解释此问题的内容。