应用错误收集

如何爬行整个wikimapia？

时间：2015-07-02 19:12:48

标签： string-formatting nsdatecomponents sdf

我需要一个站点地图，它可以帮助人们和谷歌也知道页面。我尝试过WebSphinx应用程序。

我意识到如果我把wikipedia.org作为起始网址，它就不会进一步爬行。

因此，如何实际抓取整个维基百科？任何人都可以给出一些指导方针吗？我是否需要专门去查找这些网址并放置多个起始网址？

任何人都有关于使用WebSphinx API的教程的好网站建议吗？

1 个答案:

答案 0 :(得分：0)

抓取维基百科是一个坏主意。它是数百TB未压缩的数据。我建议使用维基百科提供的各种转储进行离线抓取。在这里找到他们https://dumps.wikimedia.org/

您可以使用页面元信息，外部链接，interwikilinks和重定向数据库等为维基百科创建站点地图。