我正在尝试从http://en.wikipedia.org/wiki/Category:People_by_occupation获取人员列表。我必须完成所有部分并从每个部分获取人员。
我该怎么办呢?我应该使用爬虫并获取页面并搜索使用BeautifulSoup的页面吗? 或者还有其他方法可以从维基百科获得相同的内容吗?
答案 0 :(得分:3)
我会选择Pywikipediabot python项目。
了解category.py。 你可以使用:
* tree - show a tree of subcategories of a given category
* listify - make a list of all of the articles that are in a category
答案 1 :(得分:1)
如果您愿意,您可以下载维基百科的整个转储并从那里开始工作。你可能想要的只是articles dump dated 3 feb 2010。但要注意:它的大小为5.6 GB。
答案 2 :(得分:1)
您可以使用CatScan工具搜索类别。
这里的说明
http://meta.wikimedia.org/wiki/CatScan
Example search - 请注意,html格式最多为1000个结果。选择CSV导出以检索所有结果。此外,请务必根据需要修改类别深度和其他选项。
已经提到的pywikipediabot是另一种选择。