如何从维基百科中提取统计数据?

时间:2011-07-24 00:32:07

标签: wikipedia wikipedia-api

我想提取维基百科中所有死人的清单,并比较他们死亡时的年龄。维基百科中的所有死人都填写了以下字段:

| birth_name = Thomas Alva Edison
| birth_date = {{birth date|mf=yes|1847|02|11}}
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}}

我必须制作一个爬虫?维基百科API中有什么可以帮助我吗? 我有什么地方可以开始爬行吗?任何死人名单?

2 个答案:

答案 0 :(得分:1)

您可以在此处找到可供下载的维基百科所有内容的转储:

http://dumps.wikimedia.org/enwiki/latest/

该文件是一个大小为几千兆字节的.xml文件,其中包含维基百科上所有页面的文本(以及其他内容)。你如何处理这取决于你将要使用的编程语言。

答案 1 :(得分:0)

这就是DBpedia的用途 - 维基百科在数据库中的所有结构化数据。请在http://dbpedia.org/sparql处尝试以下查询:

select distinct ?p, ?d where {
  ?p a <http://dbpedia.org/ontology/Person> .
  ?p <http://dbpedia.org/ontology/deathDate> ?d .
}