应用错误收集

nutch再次访问页面的时间表

时间：2018-05-04 07:28:23

标签： apache web-crawler nutch nutch2

我已经将Nutch 2.3.1配置为Hadoop / Hbase生态系统。我有几百个想要获取的域名。到目前为止，我已经取了很多。我很好奇当Nutch将再次访问已经获取的文档并在更新时重新获取它。是否有任何控制参数或类似的东西？

1 个答案:

答案 0 :(得分：2)

Nutch有多种方法可以在再次获取页面时进行配置（请参阅https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml）。

db.fetch.interval.default（第一次获取页面时分配的初始提取值）。请记住，默认实现（db.fetch.schedule.class，https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396）始终将获取间隔添加到上次获取时间，因此不太理想。我建议切换到自适应提取计划算法，该算法将根据页面更新的频率（https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java）尝试优化下一个提取时间。

请注意，您还可以使用种子文件（https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L59）中的nutch.fetchInterval元数据键指定每次网址提取时间（在注入时）。