如何使用一个具有共享NN&的Cloudera管理器来管理两个集群YARN服务器

时间:2016-05-11 13:20:26

标签: hadoop hdfs yarn cloudera-cdh cloudera-manager

我想为不同的项目设置单独的数据节点(不想在两个项目之间共享数据节点)

我可以在Cloudera Manger中看到使用共享cloudera管理器的两个不同集群的选项。那么我可以拥有单独的数据集群集,并与早期集群共享HDFS和Yarn管理器。 Yarn / HDFS主服务必须有两个单独的fsimage / edit日志和资源管理器我想(或者我将在主节点上配置哪些服务器配置,这些配置将与新的集群数据节点和安装在其上的客户端进程共享。)

有可能吗?有没有人以前这样做过。性能如何? 我指的是这个文件 - > [http://www.cloudera.com/documentation/archive/manager/4-x/4-5-1/Cloudera-Manager-Enterprise-Edition-User-Guide/cmeeug_topic_6.html][使用一个CM的多群集的cloudera文档]

我们是否也可以为HDFS设置一些规则,以便仅为特定的数据/目录集存储/使用特定的数据节点集,以便实现分离?

提前致谢。

1 个答案:

答案 0 :(得分:0)

您引用的文档是如何使用一个cloudera manager安装来管理多个独立集群。你想做什么我不相信是可能的。这不是hadoop的设计方式。在接下来的5.7和5.8版CM和CDH中,hadoop上的多租户变得越来越容易。如果你确实管理了它,而且我不确定你能不能,那么性能会非常糟糕。

典型的思维过程是尽可能靠近数据运行守护进程(mr,hive,impala)。如果您担心的是为不同的客户端提供不同的数据节点,那么您可以轻松解决这一问题,而无需尝试以具有配额和良好安全性的方式将集群与kerberos和sentry相结合。你最感兴趣的服务是什么?纱线本身只是一个资源管理器所以我猜你现在正在寻找MapReduce和HDFS。你打算做任何分析吗?您想要使用配置单元或impala。