导入Wikipedia的xml.bz2选项

时间:2012-02-01 18:09:50

标签: wikipedia

我想到了编写可以使用XML并将其插入数据库的Java程序的可能性。我提取了压缩的维基百科页面文件,所以我现在用xml,不仅仅是在xml.bz2中。我查看了维基百科的网站,但没有成功。找不到东西。我想这不应该是一个非常艰难的过程,它应该是直截了当的,这就是我问你的原因:)。

1 个答案:

答案 0 :(得分:1)

.bz2后缀表示bzip2压缩。如果你在Linux或其他Unixish OS上,你可能已经安装了bzip2解压缩程序;如果您使用的是Windows,则可以下载一个here

请注意,有些Java库可以让您直接读取bzip2压缩流,而无需外部解压缩程序。其中一个可以找到here

编辑:等等,我想我误解了你的问题。看起来您已经设法解压缩XML转储,现在您想知道如何处理它。在这种情况下,您可能需要查看mwdumper