我已经将Nutch 2.3.1配置为Hadoop / Hbase生态系统。我有几百个想要获取的域名。到目前为止,我已经取了很多。我很好奇当Nutch将再次访问已经获取的文档并在更新时重新获取它。是否有任何控制参数或类似的东西?
答案 0 :(得分:2)
Nutch有多种方法可以在再次获取页面时进行配置(请参阅https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml)。
db.fetch.interval.default
(第一次获取页面时分配的初始提取值)。请记住,默认实现(db.fetch.schedule.class
,https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396)始终将获取间隔添加到上次获取时间,因此不太理想。我建议切换到自适应提取计划算法,该算法将根据页面更新的频率(https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java)尝试优化下一个提取时间。
请注意,您还可以使用种子文件(https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L59)中的nutch.fetchInterval
元数据键指定每次网址提取时间(在注入时)。