我正在使用3节点Hadoop 2.6群集。
hadoop fs -put data/sample.csv /tmp
这将保存" sample.csv" in" / tmp"目录。这个csv有10亿条记录(大小31 GB)
此数据是否分布在所有节点上?
我是否需要更改任何配置?
答案 0 :(得分:1)
这些数据是否分布在所有节点上?
是。如果您将数据写入HDFS,它始终是分布式的。
它通常不一定分布在所有节点上。有3个节点和31 GB文件,肯定会。但是如果你有更多的节点或更小的文件,它可能不是。通常,HDFS决定如何最好地分发文件。默认情况下,它还会以3种方式复制文件。
答案 1 :(得分:1)
您可以运行此命令
hdfs fsck /tmp/sample.csv -files -blocks -locations
命令会将关联的块提供给您的文件和位置。在这种情况下,如果复制因子为3,则所有3个节点上将有31 GB数据。