如何使用OpenShift配置Hadoop生态系统集群?

时间:2018-04-06 10:56:58

标签: hadoop bigdata openshift hortonworks-data-platform

我们正在寻找一种可行的方式来配置OpenShift(基于Docker)的Hadoop生态系统集群。我们希望使用Hadoop生态系统的服务构建集群,即HDFS,YARN,Spark,Hive,HBase,ZooKeeper等。

我的团队一直在使用Hortonworks HDP作为内部部署硬件,但现在将切换到基于OpenShift的基础架构。 Hortonworks Cloudbreak似乎不适合基于OpenShift的基础架构。我发现this文章描述了YARN与OpenShift的集成,但似乎没有更多可用的信息。

在OpenShift上配置Hadoop生态系统集群的最简单方法是什么?手动添加所有服务会感觉容易出错并且难以管理。我偶然发现了这些单独服务的Docker映像,但它与使用Hortonworks HDP等平台的自动配置无法比较。任何指导都表示赞赏。

1 个答案:

答案 0 :(得分:1)

如果您在Openshift中安装Openstack,Sahara allows provisioning of Openstack Hadoop clusters

或者,Cloudbreak is Hortonwork's tool用于配置基于容器的云部署

两者都提供Ambari,允许您使用与HDP相同的群集管理界面。

FWIW,我个人没有找到将Hadoop放入容器的原因。您的datanode已锁定到特定磁盘。在单个主机上运行几个较小的ResourceManagers没有任何改进。另外,对于YARN,您将在容器内运行容器。对于namenode,您必须有一个复制的Fsimage + Editlog,因为容器可以放在任何系统上