我刚刚开始学习Hadoop,并且对如何以分布式方式存储数据感到困惑。我有MPI背景。使用MPI,我们通常有一个主处理器,可以将数据发送到其他各种处理器。这是由程序员明确完成的。
使用Hadoop,您将拥有Hadoop分布式文件系统(HDFS)。因此,当您将本地服务器中的某些文件放入HDFS时,HDFS是否会自动以分布式方式存储此文件而无需程序员进行任何操作? HDFS这个名称似乎暗示了这一点,但我只是想验证一下。
答案 0 :(得分:3)
是的。
文件已上传,NameNode根据复制因子(通常为3)协调复制到存储该文件的DataNodes。
此外,NameNode的工作是查找复制不足的文件或块,并将复制它们以维持复制因子。有关更多信息,请参见HDFS Architecture - Data Replication。