我有一个巨大的wiki转储(在解压缩tar.bz文件后大约50GB),我想从中提取单个文章。我使用wikixmlj库来提取内容,它确实提供了最后提到的标题,文本,类别以及一些其他属性。但是我对与每篇文章相关的外部链接/引用更感兴趣,这个库没有提供任何API。
除了解析我们使用wikiText
API获得的getWikiText()
之外,是否有任何优雅而有效的方法来提取它。
或者是否有任何其他java库可以从这个转储文件中提取,它提供了标题,内容,类别和引用/外部链接。
答案 0 :(得分:2)
XML转储包含库为您提供的内容:页面文本以及一些基本元数据。它不包含有关类别或外部链接的任何元数据。
我看到它的方式,你有三个选择:
答案 1 :(得分:0)