我想处理维基百科转储文件。换句话说,我想为每篇文章提取标题,类别和文本内容。我想问的是,是否有任何java api /工具可以帮助我做到这一点。 提前谢谢
答案 0 :(得分:8)
Wikipedia转储文件采用XML格式。因此,您可以使用任何可用的XML工具来实现此目的。
请注意,由于转储文件的大小,SAX解析器通常比DOM解析器更有效(因为DOM解析器会尝试将整个内容加载到内存表示中)。
答案 1 :(得分:3)
看看http://code.google.com/p/jwpl/ 它是一个java api,它为你提供了对wikipedia转储的结构化访问,你需要一个数据库(mysql或类似的),并且最近的维基百科转储了很多ram,但至少要处理4g。
但它很好用: 你可以获得所有页面或页面标题的迭代器以及更容易使用的东西。
答案 2 :(得分:1)