从种子开始抓取维基百科页面

时间:2014-04-16 11:30:03

标签: web-crawler wikipedia

从种子开始抓取维基百科的最有效方法是什么?

我想要做的是从种子(即特定页面)开始,然后抓取与种子最大距离N的页面。应通过导航页面中包含的链接来完成爬网。

例如,在N=2的情况下,我会扩展到种子(distance=1)中链接的每个页面,然后,对于每个页面,再次展开到页面链接(distance=2)。

首选Java解决方案,但脚本(例如Python)也可以。

1 个答案:

答案 0 :(得分:1)