具有Docker的多节点Hadoop集群

时间:2016-01-25 16:47:46

标签: hadoop docker hdfs cluster-computing cloudera

我正在基于Hadoop的环境中规划多节点Docker群集的阶段。所以它应该基于轻量级易用的虚拟化系统。 当前架构(关于文档)包含1个主节点和3个从节点。该主机使用HDFS文件系统和KVM进行虚拟化。 整个云由Cloudera Manager管理。此群集上安装了多个Hadoop模块。还有一个NodeJS数据上传服务。 这次我应该基于架构Docker。 我已阅读了几篇教程并提出了一些意见,但也提出了一些问题。

A。您如何看待,https://github.com/Lewuathe/docker-hadoop-cluster是我项目的良好基础?我发现了一个官方image,但它是单节点。

B. 如果我想在单个容器中制作系统要求,系统要求会如何变化?这将是很好的,因为这种架构应该在不同的位置工作,因此可以在这些位置之间轻松传输更改。这些所谓的克隆之间的同步很重要。

C。您是否有其他想法,也许是最佳做法?

3 个答案:

答案 0 :(得分:1)

截至2016年9月,没有快速回答。

https://github.com/Lewuathe/docker-hadoop-cluster似乎不是一个好的开始,因为它应该是你的B.选项的普遍性

密切关注https://github.com/sequenceiq/hadoop-dockerhttps://github.com/kiwenlau/hadoop-cluster-docker

答案 1 :(得分:0)

要解决您的问题 C 。,您可能需要查看BlueData的软件平台:http://code.stephenmorley.org/javascript/collapsible-lists/

它旨在在基于Docker的环境中运行多节点Hadoop集群,并且有一个可供下载的免费版本(您也可以在AWS EC2实例中运行它)。

答案 2 :(得分:-1)

这项工作已经为你完成了,实际上是:

https://hub.docker.com/r/cloudera/clusterdock/

它包括一个预先打包的多节点CDH集群,Cloudera Manager是集群管理等的可选组件。