我们正在使用Hortonworks HDP 2.1和Ambari 1.6.1
在我们的底层硬件崩溃后,我们几天前重启了我们的集群。我们重新获得了一切,然而,Ambari显示两个服务仍在关闭,YARN资源管理器和MapReduce历史服务器。这两个服务都在运行,通过检查服务器上的运行进程以及检查提供的功能来验证。 Nagios健康检查也没问题。尽管如此,Ambari仍然表示服务正在停止。尝试启动它们不起作用(地址已在使用中,这是预期的,因为它已经在运行)。如果进程在启动之前被终止,那么它将被启动,但仍将显示为失败的操作,Ambari将继续将服务显示为已停止。
之前有其他人遇到过类似的问题吗?我无法在任何地方找到有关类似案件的任何信息。
答案 0 :(得分:2)
我过去遇到过类似的问题,这是由于PID文件的权限所致。查看YARN的服务描述符文件,查看它检查的文件是否正在运行。通常,它会读取pid并检查pid文件中列出的进程是否正在运行。我会发现它检查的pid文件的位置然后停止服务,删除pid文件,然后使用ambari重新启动服务。这应该使用正确的用户/组和权限重新创建pid文件,并最终解决您遇到的问题。