我与Apache Nutch和Solr合作了一段时间来抓取并索引某些网站。现在Nutch有一种行为我无法解释。有两种情况:
对于我在两个场景中都包含的单个种子,我希望抓取相同的URL。在我看来,没有区别。
无论如何,如果我的意见是对的,我不会写在这里。实际情况是,有两种不同的已爬网址。第一个方案中有更多已爬网的URL。因此,总结如果我抓取单个种子,爬网比带有一组网站的种子列表更广泛。
这种行为是标准的还是不寻常的?是否有可能来自其他种子点的链接以我分析的种子无法搜索所有链接的方式中断进程?这是一个设置问题还是仅仅是一件Nutch事情。
答案 0 :(得分:3)
有一些配置属性和参数会影响Nutch跟踪链接的方式。您观察到添加更多种子(形成不同的站点或主机)导致每个主机的已爬网文档/页面数量减少,可以通过参数-topN对每个轮次设置的页数限制来轻松解释生成“步骤。如果获取列表限于例如每轮100页,则
在第二个场景中获得相同数量的回合后,为一个站点提取的页面数量会减少。
作为解决方案,您可以增加-topN或轮数(-depth)。