如何从维基百科中获取有关人员的所有文章?

时间:2010-10-25 17:23:39

标签: wikipedia wikipedia-api

从维基百科获取有关人物的所有文章的最简单方法是什么?我知道我可以下载所有页面的转储,但是我如何过滤那些只获取有关人员的内容?我需要尽可能多的(最好超过一百万),因此使用任何类型的API可能都不是一种选择。

3 个答案:

答案 0 :(得分:10)

由于关于人的文章通常包含Persondata模板,因此您只需搜索包含Persondata的所有文章。您可以在此处找到示例API查询:

Does the Wikipedia API support searches for a specific template?

答案 1 :(得分:6)

截至2014年,您还有另一种选择:对属性WikiData具有值instance of (P31)的所有实体查询human (Q5)

完整的人类名单:https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

从该列表中筛选出任何没有sex or gender (P21)的内容,以摆脱像“科学家”这样的网页

这样,您就不需要跟踪维基百科的每个不同语言版本(有285)中人们使用的模板。

答案 2 :(得分:4)

如果您要自己推出,基本上您需要关注的是XML转储中的“信息框数据”。

参考:http://code.google.com/p/infobox2rdf/

或者您也可以结帐http://www.freebase.comhttp://dbpedia.org