是否可以在HDFS中直接重新分区数据?如果您发现自己的分区不平衡(一个或多个分区的大小要比其他分区大得多),该如何处理?
我知道可以在Apache Spark中完成该操作,但是运行一个作业来进行重新分区似乎很麻烦-也许这是个好主意?
答案 0 :(得分:0)
运行hdfs balancer
。该工具可在数据节点之间平均分配HDFS块。
https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#balancer
如果您正在运行Cloudera Manager或Ambari托管发行版,则可以从其Web UI运行HDFS平衡器。