HDFS:群集上所有磁盘的实际空间与可用的HDFS大小

时间:2016-01-28 12:47:38

标签: hadoop apache-spark hdfs bigdata

如何根据群集中磁盘的总大小计算HDFS群集的可用大小?

E.g。如果我的群集是10台计算机,每台计算机都有1TB的存储空间,hadoop fs -df会报告什么?

更具体地说,我需要在HDFS集群中存储5 TB的数据。我的群集需要多少总磁盘空间?

1 个答案:

答案 0 :(得分:0)

这一切取决于您如何设置HDFS复制因子。 默认(和推荐)是3。

你也可以设置hdfs以保留一些非dfs空间,如果需要,减去它。

粗略计算几乎总是file size * 3 = total storage needed