DBLP从Python中的巨大xml文件获取www-homepage信息

时间:2018-07-14 09:48:35

标签: python xml parsing xml-parsing

我是xml的新手,我需要在dblp中获取每个作者的主页信息,但是xml文件非常大,大约2 gb。这是我需要从文件中获取的部分:

<www key="homepages/d/StephanDiehl">
<author>Stephan Diehl</author>
<title>Home Page</title>
<url>http://www.st.uni-trier.de/~diehl/</url>
</www>

如何仅从此xml文件获取作者名称和主页?我在网上找到的其他方法无法正常工作。任何帮助将不胜感激。

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以使用XML element tree提取感兴趣的数据。\\函数将搜索指定的标记作为根的子代。

C:\\Users\\UserName\\AppData