我正在基于Hadoop
的环境中规划多节点Docker
群集的阶段。所以它应该基于轻量级易用的虚拟化系统。
当前架构(关于文档)包含1个主节点和3个从节点。该主机使用HDFS
文件系统和KVM
进行虚拟化。
整个云由Cloudera Manager
管理。此群集上安装了多个Hadoop模块。还有一个NodeJS
数据上传服务。
这次我应该基于架构Docker
。
我已阅读了几篇教程并提出了一些意见,但也提出了一些问题。
A。您如何看待,https://github.com/Lewuathe/docker-hadoop-cluster是我项目的良好基础?我发现了一个官方image,但它是单节点。
B. 如果我想在单个容器中制作系统要求,系统要求会如何变化?这将是很好的,因为这种架构应该在不同的位置工作,因此可以在这些位置之间轻松传输更改。这些所谓的克隆之间的同步很重要。
C。您是否有其他想法,也许是最佳做法?
答案 0 :(得分:1)
截至2016年9月,没有快速回答。
https://github.com/Lewuathe/docker-hadoop-cluster似乎不是一个好的开始,因为它应该是你的B.选项的普遍性
密切关注https://github.com/sequenceiq/hadoop-docker和https://github.com/kiwenlau/hadoop-cluster-docker
答案 1 :(得分:0)
要解决您的问题 C 。,您可能需要查看BlueData的软件平台:http://code.stephenmorley.org/javascript/collapsible-lists/
它旨在在基于Docker的环境中运行多节点Hadoop集群,并且有一个可供下载的免费版本(您也可以在AWS EC2实例中运行它)。
答案 2 :(得分:-1)
这项工作已经为你完成了,实际上是:
https://hub.docker.com/r/cloudera/clusterdock/
它包括一个预先打包的多节点CDH集群,Cloudera Manager是集群管理等的可选组件。