我知道以下解决方案:
有没有办法以json或其他结构化格式获取信息框信息?或者,是否有任何红宝石宝石解析' wikitext'模型数据将其转换为结构化格式?如果没有,我在哪里可以找到有关信息框格式的文档来自己做?
答案 0 :(得分:0)
Wikipedia不提供有关信息框的任何结构化信息-唯一的方法是自己解析Wikitext,或使用为您提供帮助的服务,例如DBpedia。
每个模板都应该有一个模板文档,您可以在一个名为Template:<name of the template>
的Wikipage上找到它。例如,可以在https://en.wikipedia.org/wiki/Template:Infobox_officeholder上找到“ Infobox officeholder”的文档。您可以通过查看源代码,然后在{{
之后直接查找字符串来查看信息框/模板的名称({{Infobox officeholder
是信息框公职人员使用的开始)。
https://github.com/earwig/mwparserfromhell是Python的出色解析器,可悲的是,我不知道该任务有任何红宝石。