任何用于管理大数据集群的开源软件,包括hadoop / hive / spark /?

时间:2017-04-11 14:33:33

标签: hadoop ambari bigdata

我正在为我寻找一个开源系统管理我的大数据集群,它由50多台机器组成,包括hadoop,hdfs,hive,spark,oozie,hbase等组件,动物园管理员,麒麟。 我想在网络系统中管理" manage" 的含义是:

  1. 我只需点击一下即可重新启动组件,例如 当我点击"重启"按钮,组件zookeeper将 被另一台机器重新启动
  2. 我只需点击一下即可部署组件,例如我 部署一个新的zookeeper,我可以编写一个编译好的zookeeper 一台机器,然后我点击"部署",它将部署到所有机器 自动。
  3. 我只需点击一下即可升级组件,例如我 想要更新一个zookeeper集群,我可以把更新的zookeeper 在一台机器上,然后我点击"更新" ,然后更新的zookeeper将 覆盖其他机器中所有旧版本的zookeeper。
  4. 总而言之,我想要的是我的大数据集群的管理系统,如重启,部署,升级,查看日志,修改配置等,或者至少其中一些。

    我考虑过 Ambari ,但它只能用于部署我的整个系统从绝对划痕,但我的大数据群集已经运行了1年。

    有什么建议吗?

1 个答案:

答案 0 :(得分:2)

Ambari是你想要的。它是管理hadoop堆栈的唯一开源解决方案,可满足您列出的要求。你是正确的,因为它不适用于已经配置的集群,这是因为为了实现与所有这些服务的紧密集成,它必须知道它们是如何配置的以及一切都在哪里并且知道每个配置存在什么配置。 Ambari将知道的唯一方法是,它是否用于提供这些服务。

投入时间用Ambari重新创建群集可能会让人觉得痛苦,但从长远来看,由于增加了升级和管理服务的能力,因此很容易获得回报。