从Wiki Dump中提取文章

时间:2013-12-30 09:19:24

标签: java xml mediawiki wiki wikipedia

我有一个巨大的wiki转储(在解压缩tar.bz文件后大约50GB),我想从中提取单个文章。我使用wikixmlj库来提取内容,它确实提供了最后提到的标题,文本,类别以及一些其他属性。但是我对与每篇文章相关的外部链接/引用更感兴趣,这个库没有提供任何API。

除了解析我们使用wikiText API获得的getWikiText()之外,是否有任何优雅而有效的方法来提取它。
或者是否有任何其他java库可以从这个转储文件中提取,它提供了标题,内容,类别和引用/外部链接。

2 个答案:

答案 0 :(得分:2)

XML转储包含库为您提供的内容:页面文本以及一些基本元数据。它不包含有关类别或外部链接的任何元数据。

我看到它的方式,你有三个选择:

  1. 将特定的SQL转储用于所需的数据,例如: categorylinks.sql用于类别,externallinks.sql用于外部链接。但是没有引用转储(因为MediaWiki没有跟踪那些)。
  2. 从XML转储中解析wiki文本。这会有模板问题。
  3. 使用您自己的MediaWiki实例将wiki文本解析为HTML,然后解析它。这也可能处理模板。

答案 1 :(得分:0)