Question

我正在尝试使用Apache Nutch 1.11抓取一些网址。我的seeds.txt文件中有7个网址，我运行命令：

bin crawl -i urls crawl 22

我的问题是，在深度为22的情况下，我希望它可以获取相当多的页面。但今天，它所做的就是获取我seeds.txt文件中存在的完全相同的URL，仅此而已。听起来很奇怪，昨天完全相同的文件和属性最终获取了313个URL。从昨天起我没有改变任何东西。谁知道发生了什么？

唯一有变化的是，昨天我正在使用另一台电脑。但是因为我在远程计算机上运行crawl命令，所以我认为它与它没有任何关系。是吗？

Answer 1

使用readdb命令生成爬网转储，并检查种子的nextFetchDate，或尝试使用新的crawldb和segment dir进行新的爬网以查看发生的情况。

日志显示有趣吗？是否实际获取了种子URL，如果是，您如何知道它们是什么？

种子的内容是否可能产生与前一天不同的网址？

fetcher.max.crawl.delay 与调度无关，但与robots.txt文件设置的值如此之大以至于不切实际时的行为有关。

您所使用的配置是

<property>
      <name>db.fetch.interval.default</name>
      <value>2592000</value>
      <description>The default number of seconds between re-fetches of a page (30 days).
      </description>
    </property>

即一个月后重新获取。同样，crawldb转储将为您提供有关您的URL发生的所有详细信息

Nutch只获取种子文件中存在的URL

1 个答案: