我尝试过WebSphinx应用程序。
我知道如果我把wikipedia.org作为起始网址,它就不会进一步抓取。
因此,如何实际抓取整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?
任何人都有关于使用WebSphinx API的教程的好网站的建议吗?
答案 0 :(得分:44)
如果您的目标是抓取所有维基百科,您可能需要查看可用的数据库转储。请参阅http://download.wikimedia.org/。
答案 1 :(得分:4)
我不确定但也许WEbSphinx的UserAgent被维基百科的robots.txt阻止
答案 2 :(得分:2)
我认为您无法为此选择所需的配置。切换到高级,抓取子域,无限制页面大小和时间。
然而, WebSphinx 可能无法抓取整个维基百科,它会因较大的数据而变慢,并最终停止使用接近200mb的内存。我建议您Nutch,Heritrix和Crawler4j。
答案 3 :(得分:0)
您可能需要从随机文章开始,然后抓取您可以从该起始文章中获取的所有文章。当该搜索树已用尽时,请从新的随机文章开始。您可以使用您认为会导致最多文章的词汇来搜索您的搜索,或者从首页上的精选文章开始。
另一个问题:为什么WebSphinx没有进一步爬行?维基百科会阻止识别为“WebSphinx”的僵尸程序吗?
答案 4 :(得分:0)
除了使用上面提到的维基百科数据库转储之外,您还可以使用维基百科的API来执行查询,例如检索100篇随机文章。
答案 5 :(得分:-1)
查看dbpedia,维基百科的结构化版本。