如何根据群集中磁盘的总大小计算HDFS群集的可用大小?
E.g。如果我的群集是10台计算机,每台计算机都有1TB的存储空间,hadoop fs -df
会报告什么?
更具体地说,我需要在HDFS集群中存储5 TB的数据。我的群集需要多少总磁盘空间?
答案 0 :(得分:0)
这一切取决于您如何设置HDFS复制因子。 默认(和推荐)是3。
你也可以设置hdfs以保留一些非dfs空间,如果需要,减去它。
粗略计算几乎总是file size * 3 = total storage needed
。