如何获取维基百科文章的所有XML修订版?

时间:2016-12-27 07:55:08

标签: wikipedia

我试图以XML文件的形式获取对给定维基百科文章的修订的所有细节。但是,我无法完全理解它。例如,this link提供仅包含1000次编辑的XML。

获得所有修订的详细信息here

我用curl来得到它,然而,我无法得到我想要的东西。有人用过这种方法吗?或者是否有任何其他方法来获取包含文章所有修订版的XML或一组XML?

1 个答案:

答案 0 :(得分:1)

您可以使用MediaWiki API

获取所有维基百科页面的修订历史记录
https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvprop=parsetree&titles=Tiger%20snake&rvlimit=500
普通用户

rvlimit 50,注册为500,机器人为5000。要获得所有修订,您需要使用上一个响应中的 rvcontinue 值创建循环。