如何爬行整个wikimapia?

时间:2015-07-02 19:12:48

标签: string-formatting nsdatecomponents sdf

我需要一个站点地图,它可以帮助人们和谷歌也知道页面。 我尝试过WebSphinx应用程序。

我意识到如果我把wikipedia.org作为起始网址,它就不会进一步爬行。

因此,如何实际抓取整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?

任何人都有关于使用WebSphinx API的教程的好网站建议吗?

1 个答案:

答案 0 :(得分:0)

抓取维基百科是一个坏主意。它是数百TB未压缩的数据。我建议使用维基百科提供的各种转储进行离线抓取。在这里找到他们https://dumps.wikimedia.org/

您可以使用页面元信息,外部链接,interwikilinks和重定向数据库等为维基百科创建站点地图。