Nagios的脚本监视hadoop集群

时间:2013-03-22 22:26:35

标签: hadoop monitoring nagios

我正在尝试使用Nagios监控Hadoop集群。我的目标是监视所有Hadoop守护进程的状态和资源使用情况,例如DataNode,Jobtracker和Tasktracker等。我能想到的解决方案是监视这些守护进程正在使用的端口。但这似乎非常有限。例如,我看不到节点等中正在运行的任务数量。

所以,我的问题是:是否有使用Nagios进行Hadoop监控的系统解决方案?

谢谢,

淑敏

3 个答案:

答案 0 :(得分:0)

我找到了this。这是一个监控hdfs的nagios插件。 Here在nagios exchange上都是与hadoop相关的插件。

答案 1 :(得分:0)

有一些方法可以使用SNMP监控Hadoop群集。您应该在Linux服务器上安装软件包snmp。此外,还必须在群集上启用SNMP,我想可以在某种基于Web的管理控制台中启用此功能。

启用此功能后,您应该能够轻松地群集:

snmpwalk -v 2c -c public <ip address cluster>

..比你可以写一个perl或bash脚本来检查你喜欢监视的某些OID。 您可以将此脚本放在“libexec”中。文件夹并在commands.cfg中为此脚本定义一个新命令,如check_cluster_snmp或您喜欢的内容。

您也可以使用JMX检查群集,但我还不太了解JMX。

答案 2 :(得分:0)

最好的办法是使用JMX,因为它允许查看Java进程以查看正在进行的操作,以及提供指标(如黑名单节点,hdfs空间状态等)。

您可以通过网址http://node.domain:port/jmx?qry=*adoop

从每个节点提取数据

您可以查看以下相关问题:

https://stackoverflow.com/questions/16893407/are-there-advanced-http-query-parameters-for-jmx-proxy-tomcat-servlet

Is there any JMX - REST bridge available?