应用错误收集

时间：2013-12-30 09:19:24

标签： java xml mediawiki wiki wikipedia

我有一个巨大的wiki转储（在解压缩tar.bz文件后大约50GB），我想从中提取单个文章。我使用wikixmlj库来提取内容，它确实提供了最后提到的标题，文本，类别以及一些其他属性。但是我对与每篇文章相关的外部链接/引用更感兴趣，这个库没有提供任何API。

除了解析我们使用wikiText API获得的getWikiText()之外，是否有任何优雅而有效的方法来提取它。
或者是否有任何其他java库可以从这个转储文件中提取，它提供了标题，内容，类别和引用/外部链接。

答案 0 :(得分：2)

XML转储包含库为您提供的内容：页面文本以及一些基本元数据。它不包含有关类别或外部链接的任何元数据。

我看到它的方式，你有三个选择：

将特定的SQL转储用于所需的数据，例如： categorylinks.sql用于类别，externallinks.sql用于外部链接。但是没有引用转储（因为MediaWiki没有跟踪那些）。
从XML转储中解析wiki文本。这会有模板问题。
使用您自己的MediaWiki实例将wiki文本解析为HTML，然后解析它。这也可能处理模板。

答案 1 :(得分：0)