应用错误收集

在hadoop HDFS中存储大文件？

时间：2016-11-14 15:59:17

标签： java hadoop mapreduce hdfs bigdata

我需要在HDFS上存储大约10TB的大文件。我需要了解的是HDFS将如何存储此文件。比如，集群的复制因子是3，我有一个10节点集群，每个节点上有超过10 TB的磁盘空间，即总集群容量超过100TB。

现在HDFS随机选择三个节点并将文件存储在这三个节点上。那么这就像听起来一样简单。请确认一下？

或HDFS分割文件 - 比如说分别为1TB的10个分割，然后将每个分割存储在随机选择的3个节点上。分裂是可能的，如果是，则是启用它的配置方面。如果HDFS必须拆分二进制文件或文本文件 - 它是如何拆分的。只需按字节。

1 个答案:

答案 0 :(得分：6)

是的，它会拆分文件（默认情况下为128mb块）。每个块将存储在3个随机节点上。因此，您将在10个节点上均匀分布30TB的数据。