我试图以XML文件的形式获取对给定维基百科文章的修订的所有细节。但是,我无法完全理解它。例如,this link提供仅包含1000次编辑的XML。
获得所有修订的详细信息here。
我用curl来得到它,然而,我无法得到我想要的东西。有人用过这种方法吗?或者是否有任何其他方法来获取包含文章所有修订版的XML或一组XML?
答案 0 :(得分:1)
您可以使用MediaWiki API
获取所有维基百科页面的修订历史记录https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvprop=parsetree&titles=Tiger%20snake&rvlimit=500
普通用户 rvlimit 为50
,注册为500
,机器人为5000
。要获得所有修订,您需要使用上一个响应中的 rvcontinue 值创建循环。