我使用Apache Nutch 2.3进行抓取。种子开始时大约有200个网址。现在随着时间的推移,文件爬虫的数量将会减少或与开始时的数量基本相同。
如何配置Nutch以便我的文件被抓取应该增加?是否有任何参数可用于控制文件数量? 第二,我如何计算每天被nutch抓取的文件数量?
答案 0 :(得分:3)
一个抓取周期包含四个步骤:生成,获取,解析和更新数据库。了解详细信息,请阅读我的回答here。
导致有限的URL提取的原因可能是由以下因素引起的:
抓取周期数:
如果您只执行一个抓取周期,那么您将获得很少的结果,因为最初会提取注入或播种到crawldb的网址。在渐进式爬网周期中,您的crawldb将使用从先前获取的页面中提取的新URL进行更新。
topN值:
如上所述here和here,topN值会导致nutch在每个周期中获取有限数量的网址。如果您的topN值较小,则页面数量会减少。
<强> generate.max.count 强>
您的nutch配置文件中的 generate.max.count
,nutch-default.xml
或nutch-site.xml
会限制从单个域中提取的网址数量here。
回答关于如何计算每天抓取的网页数的第二个问题。您可以做的是读取日志文件。从那里,您可以累积有关每天抓取的页数的信息。
在nutch 1.x日志文件中生成日志文件夹NUTCH_HOME/logs/hadoop.log
您可以从日志中计算与日期和状态“获取”相关的行,如下所示:
cat logs/hadoop.log | grep -i 2016-05-26.*fetching | wc -l