应用错误收集

从种子开始抓取维基百科页面

时间：2014-04-16 11:30:03

标签： web-crawler wikipedia

从种子开始抓取维基百科的最有效方法是什么？

我想要做的是从种子（即特定页面）开始，然后抓取与种子最大距离N的页面。应通过导航页面中包含的链接来完成爬网。

例如，在N=2的情况下，我会扩展到种子（distance=1）中链接的每个页面，然后，对于每个页面，再次展开到页面链接（distance=2）。

首选Java解决方案，但脚本（例如Python）也可以。

1 个答案:

答案 0 :(得分：1)

您可以使用API执行此操作，特别是the links module。

初始查询如下所示：

http://en.wikipedia.org/w/api.php?action=query&prop=links&titles=Page

There are libraries for accessing the API from almost any language.