通过巨大的XML文件迭代并获得价值?

时间:2018-04-24 21:17:33

标签: python xml python-3.x parsing data-processing

我想迭代用户Stackoverflow转储文件。问题是它非常庞大而且它是XML。对我来说,xml是一个新主题。我阅读了几篇文档和Stackoverflow Post但由于某种原因它不起作用。

XML格式:

<users>
  <row Id="-1" Reputation="1" 
  CreationDate="2008-07-31T00:00:00.000" 
  DisplayName="Community" 
  LastAccessDate="2008-08-26T00:16:53.810" 
  WebsiteUrl="http://meta.stackexchange.com/" 
  Location="on the server farm" AboutMe="&lt;p&gt;Hi, I'm not really a person.&" Views="649" UpVotes="245983" DownVotes="924377" AccountId="-1" 
  />
</users>

守则:

from xml.etree.ElementTree import iterparse

for evt, elem in iterparse('data/Users.xml', events=('start','end')):
    print(evt, elem)

我得到了什么:

For Loop outprint我是一堆六进制代码。最后我得到了一个内存异常。也许它是正常的,因为我第二次尝试它并且非常快地迭代xml 0.13 seconds

start <Element 'row' at 0x04CC16F0>
end <Element 'row' at 0x04CC16F0>
start <Element 'row' at 0x04CC1810>

我希望你们可以通过这个问题提供帮助。我如何获得此输出的价值?我想把它保存到SQL中。

所有文件都是199 GB(徽章,评论,PostLinks,PostHistory,用户,帖子,标签和投票)。 特定于此课题的Users.xml是2,49 GB。但我想将所有数据从SO放入数据库。

你的忠实

HanahDevelope

1 个答案:

答案 0 :(得分:1)

看起来您只需要遍历所有end元素的row事件,并对属性执行某些操作:

from xml.etree.ElementTree import iterparse

for evt, elem in iterparse('data/Users.xml', events=('end',)):
    if elem.tag == 'row':
        user_fields = elem.attrib
        print(user_fields)

这将输出:

{'DisplayName': 'Community', 'Views': '649', 'DownVotes': '924377', 'LastAccessDate': '2008-08-26T00:16:53.810', 'Id': '-1', 'WebsiteUrl': 'http://meta.stackexchange.com/', 'Reputation': '1', 'Location': 'on the server farm', 'UpVotes': '245983', 'CreationDate': '2008-07-31T00:00:00.000', 'AboutMe': "<p>Hi, I'm not really a person.", 'AccountId': '-1'}