我有一个70 GB的数据集。我已经发布了有关如何读取巨大的xml文件的信息。我尝试了迭代方法,但是使用这种方法,在IDE关闭之后,文件可以正常读取长达7-8个小时。我尝试了pycharm,anconda和Spider。我将我的RAM从4 GB增加到8 GB。 还有没有其他方法可以完全读取此文件?
我将我的RAM从4GB增加到了8GB,并使用了迭代方法,尽管在某种程度上它可以使用此方法,但是在读取数据集长达7-8小时后,IDE关闭并且系统挂起。
这是我尝试过的代码
import xml.etree.ElementTree as etree
for event, elem in etree.iterparse('Tags.xml', events=('start', 'end')):
for rows in elem:
count = count + 1
print(rows.attrib)
elem.clear()