并行停用多个Hadoop DataNode

时间:2016-12-16 23:45:05

标签: hadoop cloudera cloudera-cdh

我正在替换Hadoop CDH 5.7群集中的多台计算机。 我首先添加了一些新机器并停用相同数量的现有数据节点。

我注意到,在停用节点时,块被标记为未复制。

这是否意味着我在退出多个节点时面临风险? 我可以并行停用所有节点吗? 有没有更好的方法来更换所有机器?

谢谢!

1 个答案:

答案 0 :(得分:1)

很明显,当节点关闭(或删除)时,数据不足。 当您添加新节点并重新平衡时,它将自动修复。

实际发生了什么?

假设您的群集上的复制因子是3.当一个节点退役时,存储在其上的所有数据都将消失,该数据的复制因子现在为2(因此在复制时)。现在,当您添加新节点并重新平衡丢失的副本时,再次将复制恢复为默认值。

我有风险吗?

如果你是一个接一个地做的话。  即替换节点并重新平衡群集。重复。我认为这是唯一的方法!

如果您只删除多个节点,则很有可能丢失数据,因为您可能会丢失某些数据的所有复制(驻留在这些节点上)。

不要一次淘汰多个节点!