我对如何设置Hadoop分布式文件系统以及我的特定设置如何影响它有点困惑。我使用本指南在虚拟盒上使用两个虚拟机来设置它http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/并运行了示例(只是一个带有txt文件输入的简单字数)。到目前为止,我知道datanode管理和检索其节点上的文件,而tasktracker则分析数据。
1)当您使用命令-copyFromLocal时,您是要将文件/输入复制到HDFS吗? Hadoop是否知道如何在slave / master之间划分信息,以及它是如何做到的?
2)在上面链接的指南中概述的配置中,技术上是否有两个从站(主站充当主站和从站)?这是常见的还是主机通常只给出jobtracker / namenode任务?
答案 0 :(得分:1)
这里有很多问题。
问题2)
问题1第2部分)
问题1第1部分)
答案 1 :(得分:0)
1)
Javadoc中有org.apache.hadoop.hdfs.DFSClient.DFSOutputStream
2)一些生产系统将配置为使主设备成为自己的专用节点(允许最大可能的内存分配,并避免CPU争用),但如果您有一个较小的集群,那么一个包含名称节点的节点和数据节点是可以接受的