处理维基百科转储文件

时间:2012-02-15 20:07:44

标签: java

我想处理维基百科转储文件。换句话说,我想为每篇文章提取标题,类别和文本内容。我想问的是,是否有任何java api /工具可以帮助我做到这一点。 提前谢谢

3 个答案:

答案 0 :(得分:8)

Wikipedia转储文件采用XML格式。因此,您可以使用任何可用的XML工具来实现此目的。

请注意,由于转储文件的大小,SAX解析器通常比DOM解析器更有效(因为DOM解析器会尝试将整个内容加载到内存表示中)。

答案 1 :(得分:3)

看看http://code.google.com/p/jwpl/ 它是一个java api,它为你提供了对wikipedia转储的结构化访问,你需要一个数据库(mysql或类似的),并且最近的维基百科转储了很多ram,但至少要处理4g。

但它很好用: 你可以获得所有页面或页面标题的迭代器以及更容易使用的东西。

答案 2 :(得分:1)

你在找这样的东西吗?

http://code.google.com/p/gwtwiki/wiki/MediaWikiDumpSupport

该页面提供了有关如何使用API​​的示例。