在hadoop HDFS中存储大文件?

时间:2016-11-14 15:59:17

标签: java hadoop mapreduce hdfs bigdata

我需要在HDFS上存储大约10TB的大文件。我需要了解的是HDFS将如何存储此文件。比如,集群的复制因子是3,我有一个10节点集群,每个节点上有超过10 TB的磁盘空间,即总集群容量超过100TB。

现在HDFS随机选择三个节点并将文件存储在这三个节点上。那么这就像听起来一样简单。请确认一下?

或HDFS分割文件 - 比如说分别为1TB的10个分割,然后将每个分割存储在随机选择的3个节点上。分裂是可能的,如果是,则是启用它的配置方面。 如果HDFS必须拆分二进制文件或文本文件 - 它是如何拆分的。只需按字节。

1 个答案:

答案 0 :(得分:6)

是的,它会拆分文件(默认情况下为128mb块)。每个块将存储在3个随机节点上。因此,您将在10个节点上均匀分布30TB的数据。