如何在nutch中获取抓取任务的工作状态

时间:2016-09-28 11:41:29

标签: nutch

在抓取周期中,我们有许多任务/阶段,例如 inject,generate,fetch,parse,updatedb,invertlinks,dedup index 作业。 现在我想知道是否有任何方法可以通过除引用hadoop.log文件之外的任何方式获取爬网任务的 状态 (无论是运行还是失败) ? 更确切地说,我想知道是否可以跟踪生成/获取/解析阶段的状态?任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:3)

您应该始终以伪或完全分布式模式运行Nutch和Hadoop,这样您就可以使用Hadoop UI跟踪爬网的进度,查看每个步骤的日志,访问计数器(非常有用!)。