所有datanodes hdfs的顺序自动重启

时间:2021-06-08 18:44:36

标签: hadoop

我有一个超过 100 个数据节点的 Hadoop 集群。它是普通的 Hadoop。没有像 cloudera、ambari 等那样的集群管理器。 如果我更改数据节点的配置 hdfs-site.xml,我必须重新启动每个数据节点。 集群处于 HA 模式,不断执行不同的 ETL 任务,重启 datanode 时我必须小心不要丢失数据 但是每个datanode都需要手动重启并检查一切是否启动的情况很紧张。

您对如何自动化这个过程有什么想法吗? 由于配置是使用ansible推出的,所以我认为是这个方向。

1 个答案:

答案 0 :(得分:0)

由于您已经在使用 Ansible,因此使用它来重新启动数据节点是有意义的。

如果你想在这期间避免数据丢失,那么最好的方法是将 DN 组织到 HDFS 上的机架中,然后一次重启一个机架,或者如果机架很大,一个机架上的多个节点一次时间。

如果 HDFS 配置了多个机架,它始终确保数据至少分布在 2 个机架上。

如果您想检查节点是否再次备份,您可以轮询 NN JMX 以检查您刚刚重新启动的节点的最后联系时间。

相关问题