还有另一种方法可以在没有内存问题的情况下在python中读取巨大的XML数据集,我也使用了迭代

时间:2019-08-20 16:32:51

标签: python xml dataset

我有一个70 GB的数据集。我已经发布了有关如何读取巨大的xml文件的信息。我尝试了迭代方法,但是使用这种方法,在IDE关闭之后,文件可以正常读取长达7-8个小时。我尝试了pycharm,anconda和Spider。我将我的RAM从4 GB增加到8 GB。 还有没有其他方法可以完全读取此文件?

我将我的RAM从4GB增加到了8GB,并使用了迭代方法,尽管在某种程度上它可以使用此方法,但是在读取数据集长达7-8小时后,IDE关闭并且系统挂起。

这是我尝试过的代码

import xml.etree.ElementTree as etree
for event, elem in etree.iterparse('Tags.xml', events=('start', 'end')):
    for rows in elem:
        count = count + 1
        print(rows.attrib)
elem.clear()

0 个答案:

没有答案