我有一个(30GB)的XML文件,其中包含2类数据,类1的数据具有相应的
<id="11" class="1" bestmatchingid="50" Body="abc"> </id>
.
.
.
<id="9999890" class="2" MatchingClass1Id="11" Body="xyz"></id>
现在的任务是提取class1的主体和相应的class 2的主体,例如
class1's id(11)== MatchingClass1Id of class2(which is 9999890)
我通过在Python中使用字符串比较来完成相同的...考虑到我的文件大小为30 GB,有没有更有效的方法在Python中完成相同的工作
答案 0 :(得分:4)
使用LXML的iterparse
功能。有关如何在非常大的文件上使用它,请参阅IBM DeveloperWorks article。
答案 1 :(得分:-1)
lxml适用于您的目的。此外,因为你是一个初学者..所以为了理解基本参考教程:
http://infohost.nmt.edu/tcc/help/pubs/pylxml/web/etree-view.html
所有iterparse方法都是解决问题的有效方法