Question

我有一个带有1个主节点和2个节点（worker + datanode）的火花簇我想添加另一个datanode。问题是，当我hdfs dfs -setrep -R -w 2时，结果是：

    1st datanode -> DFS Used%: 75.61%
    2nd datanode -> DFS Used%: 66.78%
    3rd datanode -> DFS Used%: 8.83%

你知道如何管理hdfs中的块来平衡30 - >每个33％近似？

由于

Answer 1

运行集群平衡实用程序balancer。这将重新平衡数据节点上的数据。

hdfs balancer -threshold <threshold_value>

-threshold确定磁盘容量的百分比。默认值为10.

这指定每个DataNode的磁盘使用量必须或应该调整到集群总体使用率的10％以内。

此过程可能需要更长的时间，具体取决于要平衡的数据量，并且不会影响群集操作。

或者，如果选择添加其他节点，则执行Datanode Commissioning。