标签: mediawiki wikipedia mediawiki-api
我正在努力获取每篇英文维基百科文章的所有修订历史记录。我只需要所有编辑'名称和版本大小(以字节为单位)以及文章标题或ID。所有修订历史记录的维基百科转储都是几TB,我的计算机无法处理它。我还尝试使用MediaWiki查询修订历史,但似乎需要很长时间才能获得所有内容。有没有其他方法可以尝试获取我想要的信息?谢谢。
答案 0 :(得分:1)
反过来解决问题,也许你不需要下载所有数据。 例如,如果您计划使用SQL,则可以从服务器执行此操作而无需下载任何内容。
请查看https://quarry.wmflabs.org/和its doc。