我正在为我寻找一个开源系统管理我的大数据集群,它由50多台机器组成,包括hadoop,hdfs,hive,spark,oozie,hbase等组件,动物园管理员,麒麟。 我想在网络系统中管理。" manage" 的含义是:
总而言之,我想要的是我的大数据集群的管理系统,如重启,部署,升级,查看日志,修改配置等,或者至少其中一些。
我考虑过 Ambari ,但它只能用于部署我的整个系统从绝对划痕,但我的大数据群集已经运行了1年。
有什么建议吗?
答案 0 :(得分:2)
Ambari是你想要的。它是管理hadoop堆栈的唯一开源解决方案,可满足您列出的要求。你是正确的,因为它不适用于已经配置的集群,这是因为为了实现与所有这些服务的紧密集成,它必须知道它们是如何配置的以及一切都在哪里并且知道每个配置存在什么配置。 Ambari将知道的唯一方法是,它是否用于提供这些服务。
投入时间用Ambari重新创建群集可能会让人觉得痛苦,但从长远来看,由于增加了升级和管理服务的能力,因此很容易获得回报。