我想提取维基百科中所有死人的清单,并比较他们死亡时的年龄。维基百科中的所有死人都填写了以下字段:
| birth_name = Thomas Alva Edison
| birth_date = {{birth date|mf=yes|1847|02|11}}
| death_date ={{death date and age|mf=yes|1931|10|18|1847|02|11}}
我必须制作一个爬虫?维基百科API中有什么可以帮助我吗? 我有什么地方可以开始爬行吗?任何死人名单?
答案 0 :(得分:1)
您可以在此处找到可供下载的维基百科所有内容的转储:
http://dumps.wikimedia.org/enwiki/latest/
该文件是一个大小为几千兆字节的.xml
文件,其中包含维基百科上所有页面的文本(以及其他内容)。你如何处理这取决于你将要使用的编程语言。
答案 1 :(得分:0)
这就是DBpedia的用途 - 维基百科在数据库中的所有结构化数据。请在http://dbpedia.org/sparql处尝试以下查询:
select distinct ?p, ?d where {
?p a <http://dbpedia.org/ontology/Person> .
?p <http://dbpedia.org/ontology/deathDate> ?d .
}