从维基百科获取有关人物的所有文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是我如何过滤那些只获取有关人员的内容?我需要尽可能多的(最好超过一百万),因此使用任何类型的API可能都不是一种选择。
答案 0 :(得分:10)
由于关于人的文章通常包含Persondata模板,因此您只需搜索包含Persondata的所有文章。您可以在此处找到示例API查询:
Does the Wikipedia API support searches for a specific template?
答案 1 :(得分:6)
截至2014年,您还有另一种选择:对属性WikiData具有值instance of
(P31)的所有实体查询human
(Q5)。
完整的人类名单:https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
从该列表中筛选出任何没有sex or gender
(P21)的内容,以摆脱像“科学家”这样的网页
这样,您就不需要跟踪维基百科的每个不同语言版本(有285)中人们使用的模板。
答案 2 :(得分:4)
如果您要自己推出,基本上您需要关注的是XML转储中的“信息框数据”。