维基百科API是否提供有关信息框的结构化信息?

时间:2017-04-12 12:02:57

标签: wikipedia wikipedia-api

我知道以下解决方案:

  1. 维基百科的信息框可以HTML格式返回,也可以在" wikitext"模型。但是,在这两种情况下,我都需要在之后解析数据,这非常容易出错。
  2. 使用DBpedia或Wikidata。不幸的是,这些服务没有我想要使用的所有数据。
  3. 有没有办法以json或其他结构化格式获取信息框信息?或者,是否有任何红宝石宝石解析' wikitext'模型数据将其转换为结构化格式?如果没有,我在哪里可以找到有关信息框格式的文档来自己做?

1 个答案:

答案 0 :(得分:0)

Wikipedia不提供有关信息框的任何结构化信息-唯一的方法是自己解析Wikitext,或使用为您提供帮助的服务,例如DBpedia。

每个模板都应该有一个模板文档,您可以在一个名为Template:<name of the template>的Wikipage上找到它。例如,可以在https://en.wikipedia.org/wiki/Template:Infobox_officeholder上找到“ Infobox officeholder”的文档。您可以通过查看源代码,然后在{{之后直接查找字符串来查看信息框/模板的名称({{Infobox officeholder是信息框公职人员使用的开始)。

https://github.com/earwig/mwparserfromhell是Python的出色解析器,可悲的是,我不知道该任务有任何红宝石。