如何从维基百科下载所有人页?

时间:2013-01-26 23:48:50

标签: web-scraping wikipedia wikipedia-api

是否可以下载一个类别的所有维基百科页面(例如http://en.wikipedia.org/wiki/Category:Births_by_year)及其所有子类别?

问题是特定页面没有使用维基词典API标记最顶级类别和每页跟踪非常长。也许可以用一些工具批量下载它?

1 个答案:

答案 0 :(得分:1)

不,由于如何制作类别,这是不可能的。你必须自己走类别。另见http://lists.wikimedia.org/pipermail/analytics/2013-December/thread.html#1368

上的讨论

对于特定类别,您只需使用特殊:导出并在其中添加类别而不是标题列表。假设您的意思是wikitext导出为“下载”;如果你想要HTML,你唯一的选择就是API中的渲染模块,或者是parsoid。