标签: web-crawler wikipedia
从种子开始抓取维基百科的最有效方法是什么?
我想要做的是从种子(即特定页面)开始,然后抓取与种子最大距离N的页面。应通过导航页面中包含的链接来完成爬网。
N
例如,在N=2的情况下,我会扩展到种子(distance=1)中链接的每个页面,然后,对于每个页面,再次展开到页面链接(distance=2)。
N=2
distance=1
distance=2
首选Java解决方案,但脚本(例如Python)也可以。
答案 0 :(得分:1)
您可以使用API执行此操作,特别是the links module。
links
初始查询如下所示:
http://en.wikipedia.org/w/api.php?action=query&prop=links&titles=Page
There are libraries for accessing the API from almost any language.