Question

我正在使用3节点Hadoop 2.6群集。

hadoop fs -put data/sample.csv /tmp

这将保存＆＃34; sample.csv＆＃34; in＆＃34; / tmp＆＃34;目录。这个csv有10亿条记录（大小31 GB）

此数据是否分布在所有节点上？

我是否需要更改任何配置？

Answer 1

这些数据是否分布在所有节点上？

是。如果您将数据写入HDFS，它始终是分布式的。

它通常不一定分布在所有节点上。有3个节点和31 GB文件，肯定会。但是如果你有更多的节点或更小的文件，它可能不是。通常，HDFS决定如何最好地分发文件。默认情况下，它还会以3种方式复制文件。

Answer 2

您可以运行此命令

hdfs fsck /tmp/sample.csv -files -blocks -locations

命令会将关联的块提供给您的文件和位置。在这种情况下，如果复制因子为3，则所有3个节点上将有31 GB数据。