使用Director在EC2上Cloudera Cluster Deployment bootstrap失败错误

时间:2017-07-04 13:03:02

标签: cloudera cloudera-cdh cloudera-manager cloudera-quickstart-vm cloudera-director

我已成功在EC2上部署了Cloudera Director和Cloudera Manager。我可以从浏览器访问director和manager实例,并且可以对这些实例执行ssh。 Cloudera Manager服务器和代理程序运行正常,并通过运行以下命令进行检查。

下一步是 - 我想部署群集。然而它失败了,我得到了Bootstrap failed error。我检查了director上的application.log文件,发现异常为 - 引起:

  

java.net.ConnectException:ConnectException调用http://:7180 / api / v6 / commands / 158:连接被拒绝(连接被拒绝)

在检查服务状态后,我发现在部署群集期间,某种方式c​​loudera-scm-manager服务正在停止(cloudera-scm-server)。但是,在部署群集之前,我已经验证了cloudera-scm-server服务已启动并正在运行。

我尝试部署群集次数并使用t2 small和m4大型实例类型。我得到同样的例外。

收到错误后,如果我重新启动cloudera-scm-service,它会启动,并且运行正常。但是在集群部署期间,它会自动停止,我猜测集群部署失败了。不确定如何以及为什么?

知道可能是什么问题吗?有人可以提供任何指示/帮助来解决这个问题吗?

用于部署的版本详细信息如下 -

  • Cloudera Director版本 - 2.4.1
  • Cloudera Manager版本 - 5.11.1
  • EC2实例 - 尝试使用t2 small和m4 large实例类型。
  • EC2实例操作系统 - RHEL 6.7,64位
  • 选择了群集配置 - 1个主服务器,1个工作服务器,1个网关
  • 选择了群集服务 - 在YARN上使用Spark的Core Hadoop(包括以下服务 - HDFS,Hive,Hue,Oozie,YARN上的Spark,YARN,ZooKeeper)

任何帮助/输入/指针来解决这个问题,非常感谢。

非常感谢。

-picku

1 个答案:

答案 0 :(得分:2)

Picku

根据您的症状,我的第一个猜测是您的CM实例太小。 Linux有一个OOM杀手,如果没有足够的内存供操作系统运行,它将终止任意进程。这可能是您没有看到cloudera-scm-service正在运行的原因。我相信你可以查看/ var / log / messages来找到暗示OOM杀手的“冒烟枪”。

有关实例类型的建议,请参阅适用于AWS Deployments的Cloudera企业参考架构。 http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_aws.pdf

祝你好运! 大卫