我需要一个站点地图,它可以帮助人们和谷歌也知道页面。 我尝试过WebSphinx应用程序。
我意识到如果我把wikipedia.org作为起始网址,它就不会进一步爬行。
因此,如何实际抓取整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?
任何人都有关于使用WebSphinx API的教程的好网站建议吗?
答案 0 :(得分:0)
抓取维基百科是一个坏主意。它是数百TB未压缩的数据。我建议使用维基百科提供的各种转储进行离线抓取。在这里找到他们https://dumps.wikimedia.org/
您可以使用页面元信息,外部链接,interwikilinks和重定向数据库等为维基百科创建站点地图。