我正在设置一个Hadoop集群。根据我的理解,至少两名工人的集群的最小设置是4台机器:
我对hdfs namenode -format
命令感到困惑,看起来它只用于格式化名称节点,但其描述(运行空hdfs
命令时)表示 "格式化DFS文件系统" 。这是否意味着我应该在所有数据节点上作为安装的一部分运行该命令,还是应该只在名称节点上运行?
答案 0 :(得分:1)
您只需要format
一次。它告诉NameNode执行格式化,这主要是元数据操作。
您不一定需要在NameNode实际驻留的节点上执行此操作。应该可以从任何地方做到。
答案 1 :(得分:1)
您还需要群集中的节点管理器用于Map和Reduce Operations的数据节点。
检查点也需要Secondary NameNode。
在安装群集时,只能执行一次NameNode格式。它可以从集群中的任何节点完成,只应该执行一次。