如何从维基百科中提取信息(例如类型和子类型)?

时间:2016-12-22 04:45:43

标签: wikipedia information-retrieval wikipedia-api information-extraction pywikibot

我想知道来自维基百科的提取类型信息。例如,我想找到:

  • 所有"卡罗来纳黑豹球员名单"
  • 所有"颜色的列表"
  • 所有" NFL球队的名单"
  • 所有"月"
  • 的列表

任何想法,如果有一个干净的方式这样做?

显然,一种替代方案是使用API​​,但据我所知,使用现有API从Wiki中提取此类信息并非易事。

3 个答案:

答案 0 :(得分:1)

您似乎需要从维基百科中提取所有类别并构建类别分类。构建类别分类后,您还可以检索相关类别。

使用类别信息,您还可以检索与特定类别相关联的所有维基百科文章。

我相信mining Wikipedia上的项目可能会在这方面为您提供帮助。我已经预处理了有关维基百科文章和类别的信息,这些文章和类别可以公开使用。

答案 1 :(得分:0)

看起来维基百科有一个API。我会从这里开始:

https://m.mediawiki.org/wiki/API:Main_page

答案 2 :(得分:0)