Question

我有一个（30GB）的XML文件，其中包含2类数据，类1的数据具有相应的

<id="11" class="1" bestmatchingid="50" Body="abc"> </id>
.
.
.
<id="9999890" class="2" MatchingClass1Id="11" Body="xyz"></id>

现在的任务是提取class1的主体和相应的class 2的主体，例如

class1's id(11)== MatchingClass1Id of class2(which is 9999890)

我通过在Python中使用字符串比较来完成相同的...考虑到我的文件大小为30 GB，有没有更有效的方法在Python中完成相同的工作

Answer 1

使用LXML的iterparse功能。有关如何在非常大的文件上使用它，请参阅IBM DeveloperWorks article。

Answer 2

lxml适用于您的目的。此外，因为你是一个初学者..所以为了理解基本参考教程：

所有iterparse方法都是解决问题的有效方法