从维基百科中挖掘人群

时间:2010-03-28 18:32:47

标签: wikipedia web-crawler

我正在尝试从http://en.wikipedia.org/wiki/Category:People_by_occupation获取人员列表。我必须完成所有部分并从每个部分获取人员。

我该怎么办呢?我应该使用爬虫并获取页面并搜索使用BeautifulSoup的页面吗? 或者还有其他方法可以从维基百科获得相同的内容吗?

3 个答案:

答案 0 :(得分:3)

我会选择Pywikipediabot python项目。

了解category.py。 你可以使用:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category

答案 1 :(得分:1)

如果您愿意,您可以下载维基百科的整个转储并从那里开始工作。你可能想要的只是articles dump dated 3 feb 2010。但要注意:它的大小为5.6 GB。

答案 2 :(得分:1)

您可以使用CatScan工具搜索类别。

这里的说明
http://meta.wikimedia.org/wiki/CatScan

Example search - 请注意,html格式最多为1000个结果。选择CSV导出以检索所有结果。此外,请务必根据需要修改类别深度和其他选项。

已经提到的pywikipediabot是另一种选择。