在正在运行的spark / hadoop集群中添加hdfs datanode

时间:2017-02-09 16:08:32

标签: hadoop apache-spark hdfs


    我有一个带有1个主节点和2个节点(worker + datanode)的火花簇     我想添加另一个datanode。     问题是,当我hdfs dfs -setrep -R -w 2时,结果是:

    1st datanode -> DFS Used%: 75.61%
    2nd datanode -> DFS Used%: 66.78%
    3rd datanode -> DFS Used%: 8.83%

你知道如何管理hdfs中的块来平衡30 - >每个33%近似?

由于

1 个答案:

答案 0 :(得分:1)

运行集群平衡实用程序balancer。这将重新平衡数据节点上的数据。

hdfs balancer -threshold <threshold_value>

-threshold确定磁盘容量的百分比。默认值为10.

这指定每个DataNode的磁盘使用量必须或应该调整到集群总体使用率的10%以内。

此过程可能需要更长的时间,具体取决于要平衡的数据量,并且不会影响群集操作。

或者,如果选择添加其他节点,则执行Datanode Commissioning