如何将数据分布式地放在hadoop 2.6上的所有节点上

时间:2015-12-11 10:30:25

标签: hadoop hdfs

我正在使用3节点Hadoop 2.6群集。

hadoop fs -put data/sample.csv /tmp

这将保存" sample.csv" in" / tmp"目录。这个csv有10亿条记录(大小31 GB)

此数据是否分布在所有节点上?

我是否需要更改任何配置?

2 个答案:

答案 0 :(得分:1)

  

这些数据是否分布在所有节点上?

是。如果您将数据写入HDFS,它始终是分布式的。

它通常不一定分布在所有节点上。有3个节点和31 GB文件,肯定会。但是如果你有更多的节点或更小的文件,它可能不是。通常,HDFS决定如何最好地分发文件。默认情况下,它还会以3种方式复制文件。

答案 1 :(得分:1)

您可以运行此命令

hdfs fsck /tmp/sample.csv -files -blocks -locations

命令会将关联的块提供给您的文件和位置。在这种情况下,如果复制因子为3,则所有3个节点上将有31 GB数据。