Apache Nutch 2.x中的电源故障处理

时间:2017-12-04 10:24:29

标签: apache hadoop web-crawler nutch

我已经设置了一个集群来从WWW抓取几个网站。我正在使用Apache Nutch 2.3.1与Hadoop和Hbase。我也有集群备份。但是当电源故障时间很长时,即使这个备份也已完成,完整的集群也会立即停止运行。当电源问题解决时(不知何故),我想从上次的位置恢复工作。例如,如果我的抓取工具抓取了1000个网址,而在50%之后,则群集会关闭。我希望Nutch应该只获取剩余的50%并且不应该获取那些已经获取的文档。

0 个答案:

没有答案