hadoop - 如何使用OpenShift配置Hadoop生态系统集群？

如何使用OpenShift配置Hadoop生态系统集群？

时间：2018-04-06 10:56:58

标签： hadoop bigdata openshift hortonworks-data-platform

我们正在寻找一种可行的方式来配置OpenShift（基于Docker）的Hadoop生态系统集群。我们希望使用Hadoop生态系统的服务构建集群，即HDFS，YARN，Spark，Hive，HBase，ZooKeeper等。

我的团队一直在使用Hortonworks HDP作为内部部署硬件，但现在将切换到基于OpenShift的基础架构。 Hortonworks Cloudbreak似乎不适合基于OpenShift的基础架构。我发现this文章描述了YARN与OpenShift的集成，但似乎没有更多可用的信息。

在OpenShift上配置Hadoop生态系统集群的最简单方法是什么？手动添加所有服务会感觉容易出错并且难以管理。我偶然发现了这些单独服务的Docker映像，但它与使用Hortonworks HDP等平台的自动配置无法比较。任何指导都表示赞赏。

1 个答案:

答案 0 :(得分：1)

如果您在Openshift中安装Openstack，Sahara allows provisioning of Openstack Hadoop clusters

或者，Cloudbreak is Hortonwork's tool用于配置基于容器的云部署

两者都提供Ambari，允许您使用与HDP相同的群集管理界面。

FWIW，我个人没有找到将Hadoop放入容器的原因。您的datanode已锁定到特定磁盘。在单个主机上运行几个较小的ResourceManagers没有任何改进。另外，对于YARN，您将在容器内运行容器。对于namenode，您必须有一个复制的Fsimage + Editlog，因为容器可以放在任何系统上