应用错误收集

一个抓取周期包含四个步骤：生成，获取，解析和更新数据库。了解详细信息，请阅读我的回答here。

导致有限的URL提取的原因可能是由以下因素引起的：

抓取周期数：

如果您只执行一个抓取周期，那么您将获得很少的结果，因为最初会提取注入或播种到crawldb的网址。在渐进式爬网周期中，您的crawldb将使用从先前获取的页面中提取的新URL进行更新。

topN值：

如上所述here和here，topN值会导致nutch在每个周期中获取有限数量的网址。如果您的topN值较小，则页面数量会减少。

<强> generate.max.count

您的nutch配置文件中的

generate.max.count，nutch-default.xml或nutch-site.xml会限制从单个域中提取的网址数量here。

回答关于如何计算每天抓取的网页数的第二个问题。您可以做的是读取日志文件。从那里，您可以累积有关每天抓取的页数的信息。

在nutch 1.x日志文件中生成日志文件夹NUTCH_HOME/logs/hadoop.log

您可以从日志中计算与日期和状态“获取”相关的行，如下所示：

cat logs/hadoop.log | grep -i 2016-05-26.*fetching | wc -l