我需要在我的cloudera CDH4群集设置上运行简单的基准测试。 我的cloudera集群设置(CDH4)有4个节点,A,B,C和D. 我正在使用cloudera manager免费版来管理cloudera服务。 每个节点配置为执行如下所述的多个角色。 答:NameNode,JobTrackerNode,regionserver,SecondaryNameNode,DataNode,TaskTrackerNode B:DataNode,TaskTrackerNode C:DataNode,TaskTrackerNode D:DataNode,TaskTrackerNode
我的第一个问题是,一个节点可以是NameNode和DataNode吗? 这个设置好吗? 我的第二个问题是,在cloudera manager UI上,我可以看到许多服务正在运行,但我不确定我是否需要所有这些服务? 在我的设置上运行的服务是: hbase1 hdfs1 mapreduce1 hue1 oozie1 zookeeper1
我是否只需要hdfs1和mapreduce1服务。如果是,我该如何删除其他服务?
云和hadoop概念对我来说是新的,所以请原谅我,如果我的一些假设是不合逻辑或错误的。
答案 0 :(得分:3)
回答你的第一个问题是肯定的。但是你永远不会在生产中这样做,因为NameNode需要足够的RAM。人们通常只在主节点上运行NameNode + JobTracker。最好在另一台机器上运行SecondarNameNode。
提出第二个问题,Cloudera Manager不仅仅是Hadoop。它是一个完整的软件包,包括几个Hadoop子项目,如HBase(一个NOSQL DB),Oozie(一个工作流引擎)等等,这些是你在UI上看到的过程。
如果您只想玩Hadoop,HDFS和MapReduce就足够了。您可以从UI本身轻松地停止其余进程。它不会对您的Hadoop集群造成任何伤害。
HTH