Question

如何将新的datanode添加到现有的hadoop集群中？

我只是停止所有操作，将新的datanode服务器设置为现有的datanode，然后将新的服务器IP添加到namenode并将奴隶的数量更改为正确的数量吗？

另一个问题是：将新的datanode添加到集群后，是否需要做任何事情来平衡所有datanode或将现有文件和目录“重新分发”到其他datanode？

Answer 1

对于Apache Hadoop，您可以选择以下两个选项之一：

1.-准备数据节点配置（JDK，二进制文件，HADOOP_HOME env var，指向主服务器的xml配置文件，在主服务器的从服务器文件中添加IP等），并在此新从服务器中执行以下命令：

hadoop-daemon.sh start datanode

2.-像步骤1一样准备datanode并重新启动整个集群。

3.-要重新分发现有数据，您需要在hdfs-site.xml中启用dfs.disk.balancer.enabled。这样会启用HDFS Disk Balancer，您需要配置计划。

Answer 2

您无需停止任何操作即可添加数据节点，数据节点应自行将其注册到Namenode；我不记得手动添加任何信息或需要重新启动名称节点来检测数据节点（我通常使用Ambari来配置新计算机）

您需要手动运行HDFS平衡器，以便将数据传播到新服务器上