应用错误收集

在集群中启动和停止hadoop守护进程/进程

时间：2012-04-28 08:44:36

标签： hadoop mapreduce cloudera

我有一个包含9个节点的linux集群，我安装了hadoop 1.0.2。我有一个GIS程序，我正在使用多个从属运行。我需要通过使用说1,2,3,4 .. 8个从节点来测量程序的speedUp。我使用start-all.sh/stop-all.sh脚本来启动/停止我的集群，一旦我通过改变从属数量来改变conf / slaves文件。但是这样做时我遇到了很多错误，并且我觉得我没有使用正确的技术来添加/删除集群中的从属节点。

有关理想的“从属文件更改和重新启动群集的技术”的任何帮助将不胜感激。

1 个答案:

答案 0 :(得分：1)

问题可能是您不允许Hadoop正常地从系统中删除节点。

您要做的是decommissioning节点，以便HDFS有时间在其他地方重新复制文件。该过程实质上是将一些节点添加到excludes文件中。然后，运行bin/hadoop dfsadmin -refreshNodes，它将读取配置并刷新集群的节点视图。

添加节点时甚至可能在删除节点时，您应该考虑运行rebalancer。这样可以均匀地传播数据，如果新节点没有任何数据，您可能会看到一些性能。