尝试从压缩的xml转储导入时出现java.io.IOException

时间:2012-05-27 03:40:45

标签: java exception wiki mediawiki wikipedia

我正在尝试将bzipped wiki XML转储导入到我的本地wiki数据库中。我正在使用一个名为MWDumper的工具来导入庞大的英语维基百科XML转储。一切似乎都运行得很顺利(看来MWdumper成功建立等等),直到我真正尝试导入。我启动了我的服务器然后运行以下(这似乎是上面链接中MWDumper页面上建议的方法):

java -jar mwdumper-1.16.jar --format=sql:1.5 enwiki-latest-pages-articles.xml.bz2 |
    mysql -u root -p my_wiki

然后我收到以下错误消息:

Exception in thread "main" java.io.IOException: Stream is not in the BZip2 format
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.init(BZip2CompressorInputStream.java:255)
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:138)
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:111)
at org.mediawiki.dumper.Tools.openBZip2Stream(Tools.java:42)
at org.mediawiki.dumper.Tools.openInputFile(Tools.java:28)
at org.mediawiki.dumper.Dumper.main(Dumper.java:124)

这似乎没有意义,因为我的文件enwiki-latest-pages-articles.xml.bz2似乎是正确的bzip2格式。 (我不确定我的Apache commons压缩包是否正确导入,虽然我假设它是,因为我不认为我会有这个错误消息。)

编辑:此问题已得到解决。我在MWDumper wiki页面上下载了MWDumper的第三方版本。建议:不要尝试从源代码构建MWDumper - 它从2005年开始缺少大量分散的源文件;只需使用第三方mwdumper.jar。

1 个答案:

答案 0 :(得分:0)

OP的解决方案:此问题已得到解决。我在MWDumper wiki页面上下载了MWDumper的第三方版本。建议:不要尝试从源代码构建MWDumper - 它从2005年开始缺少大量分散的源文件;只需使用第三方mwdumper.jar。