我们已经设置了一个包含6个从属节点的集群。我试图看看当其中一个DataNode死亡时,复制是如何发生的。
我登录了其中一个slave并使用kill -9命令杀死了DataNode。一段时间后,DataNode会自动重启,HDFS会恢复健康状态。我正在验证这一点,因为DataNode的PID已经改变。
我没有看到有关DataNode上述行为的任何文档。这是Apache Hadoop还是Cloudera CDH功能?欢迎任何对文档的引用。
答案 0 :(得分:1)
由于datanode的pid已经改变,我不认为这是datanode的行为。如果使用Cloudera Manager管理集群,则可以选择在datanode守护程序失败时重新启动它(自动重新启动进程)。默认情况下将设置此选项。当datanode进程失败或被杀死时,设置为自动重启选项Cloudera Scm agent
将启动datanode守护进程。
对于自动重启选项:选择HDFS服务 - >转到配置部分 - >搜索automatic restart
。
此功能在CM 4.X版本中也可用。