我有一个带有1个主节点和2个节点(worker + datanode)的火花簇
我想添加另一个datanode。
问题是,当我hdfs dfs -setrep -R -w 2
时,结果是:
1st datanode -> DFS Used%: 75.61%
2nd datanode -> DFS Used%: 66.78%
3rd datanode -> DFS Used%: 8.83%
你知道如何管理hdfs中的块来平衡30 - >每个33%近似?
由于
答案 0 :(得分:1)
运行集群平衡实用程序balancer
。这将重新平衡数据节点上的数据。
hdfs balancer -threshold <threshold_value>
-threshold
确定磁盘容量的百分比。默认值为10.
这指定每个DataNode的磁盘使用量必须或应该调整到集群总体使用率的10%以内。
此过程可能需要更长的时间,具体取决于要平衡的数据量,并且不会影响群集操作。
或者,如果选择添加其他节点,则执行Datanode Commissioning。