我的HDFS群集中有三个Datanode。 两个具有1.4TB磁盘容量,另一个具有500GB。
问题在于HDFS将数据平均存储到所有三个节点。 现在我在所有三台主机中都有450GB HDFS数据,而其中一台拥有500GB 主机似乎很快就会遇到麻烦。
1)有什么方法可以重新平衡Ambari中的所有三个Datanode? p>
2)有什么方法可以控制NameNode / DataNode不将数据存储到特定的datanode? p>
首先,我尝试从500GB主机中删除DataNode,但是互联网上有一些评论说,如果复制因子大于剩余DataNode的数量,将会带来一些麻烦。
提前谢谢!