访问维基百科数据的最佳Java API

时间:2013-04-24 06:14:03

标签: java nlp mediawiki wikipedia wikipedia-api

我希望以优化的方式访问基于研究的NLP任务的维基百科数据。我正专注于找到一些 Java API 。我见过很多Java API,例如JWPL,gwtwiki,wikixmlj,Bliki Engine,Wiki.java,Stackoverfolw Question

我不太清楚我应该使用哪种API。我的要求是找到有关维基百科实体的以下信息。

  1. 修订历史资料。
  2. 文章完整文章和文章元数据
  3. 作者信息
  4. 外部链接+内部链接
  5. 谈话页
  6. 统计
  7. 用户反馈
  8. 我已经看到了Java项目中的示例,我在上面提到过。但我不确定我从单一API获得所有信息。请帮助我的人有一些处理维基百科数据的经验,这样我就可以做出更好的决定。

2 个答案:

答案 0 :(得分:0)

Sweble可以获得全文及其链接。我没有将它用于其他案件,因此无法对此发表评论。

答案 1 :(得分:0)

我建议你看一下JWPL - 基于Java的维基百科图书馆。 https://code.google.com/p/jwpl/

它对修订有很好的支持,在我看来(很容易)是最活跃的java维基百科库。

与JWBF(僵尸框架)不同,它更适合分析,不允许创建机器人并写入维基百科,但这些限制对您来说不是问题。