Apache Nutch:种子数量会改变爬行行为

时间:2016-05-19 11:51:00

标签: nutch

我与Apache Nutch和Solr合作了一段时间来抓取并索引某些网站。现在Nutch有一种行为我无法解释。有两种情况:

  1. 我用一个有一个网站的种子列表开始Nutch。
  2. 我使用包含多个站点的种子列表启动Nutch,并且还包括场景1中的站点。
  3. 对于我在两个场景中都包含的单个种子,我希望抓取相同的URL。在我看来,没有区别。

    无论如何,如果我的意见是对的,我不会写在这里。实际情况是,有两种不同的已爬网址。第一个方案中有更多已爬网的URL。因此,总结如果我抓取单个种子,爬网比带有一组网站的种子列表更广泛。

    这种行为是标准的还是不寻常的?是否有可能来自其他种子点的链接以我分析的种子无法搜索所有链接的方式中断进程?这是一个设置问题还是仅仅是一件Nutch事情。

1 个答案:

答案 0 :(得分:3)

有一些配置属性和参数会影响Nutch跟踪链接的方式。您观察到添加更多种子(形成不同的站点或主机)导致每个主机的已爬网文档/页面数量减少,可以通过参数-topN对每个轮次设置的页数限制来轻松解释生成“步骤。如果获取列表限于例如每轮100页,则

  • (使用一个站点/主机)可以为此站点提取100个页面
  • (有10个站点)仅约。每个网站提取10页

在第二个场景中获得相同数量的回合后,为一个站点提取的页面数量会减少。

作为解决方案,您可以增加-topN或轮数(-depth)。