如何找到旧的维基百科转储

时间:2015-03-16 16:42:11

标签: wikipedia wikimedia-dumps

我需要用法语访问非常古老的维基百科转储(维基百科的备份)。我成功地从archive.org找到了2010年的备份,现在我正在搜索2006年甚至之前。 我知道在最新的转储中存在来自之前的所有数据,但是我需要在我的计算机中设置维基百科的版本,例如2006,2010,2012。有一件事 - 我猜 - 不可能对最新的转储做。

非常感谢你的帮助。

3 个答案:

答案 0 :(得分:3)

维基媒体基金会提供对一些旧转储on their website的访问权限。请注意,与现在的维基百科相比,它们中的一些使用了不同的模式,因此您可能需要在使用它们时修改工具。

Archive.org还提供了更多档案。

答案 1 :(得分:2)

从2006年11月开始出现静态HTML转储,可在此处找到:http://dumps.wikimedia.org/other/static_html_dumps/

此外,如果您获得完整转储(包含编辑历史记录),您可以过滤它以删除特定日期之后的所有修订 - 然后您应该能够在该日期之前查看它(除了稍后删除的材料) ,所以不在转储中。)

答案 2 :(得分:1)

不幸的是,维基媒体没有保留所有历史转储(除了其他人注意到的少数例外)。

鉴于您的用例,我强烈建议您使用JWPL Wikipedia Revision Toolkit: https://dkpro.github.io/dkpro-jwpl/WikipediaRevisionToolkit/

具体来说,您可能会欣赏“Time Machine”软件包,它允许您在过去的某个日期重建维基百科的状态。 https://dkpro.github.io/dkpro-jwpl/TimeMachine/

虽然我没有特别使用该功能,但我已经成功地将Revision Toolkit用于其他目的。 JWPL包还包含其他非常有用的工具。