在python中执行xml解析的有效方法

时间:2012-04-05 09:51:47

标签: python xml-parsing

我有一个(30GB)的XML文件,其中包含2类数据,类1的数据具有相应的

<id="11" class="1" bestmatchingid="50" Body="abc"> </id>
.
.
.
<id="9999890" class="2" MatchingClass1Id="11" Body="xyz"></id>

现在的任务是提取class1的主体和相应的class 2的主体,例如

class1's id(11)== MatchingClass1Id of class2(which is 9999890)

我通过在Python中使用字符串比较来完成相同的...考虑到我的文件大小为30 GB,有没有更有效的方法在Python中完成相同的工作

2 个答案:

答案 0 :(得分:4)

使用LXMLiterparse功能。有关如何在非常大的文件上使用它,请参阅IBM DeveloperWorks article

答案 1 :(得分:-1)

lxml适用于您的目的。此外,因为你是一个初学者..所以为了理解基本参考教程:

http://infohost.nmt.edu/tcc/help/pubs/pylxml/web/etree-view.html

所有iterparse方法都是解决问题的有效方法