由于com.cloudera.cmon.agent.DnsTest超时导致的健康状况不佳

时间:2013-08-30 10:50:49

标签: hadoop installation cloudera

问题:

越来越多的数据节点在Cloudera Manager中变得不健康。

Clue1:

没有任何任务或工作,只是这里的空闲数据节点,

-bash-4.1 $ top 热门 - 18:27:22 up 4:59,3位用户,平均负载:4.55,3.52,3.18

任务:共139次,1次跑步,137次睡眠,1次停止,0次僵尸

Cpu(s):14.8%us,85.2%sy,0.0%ni,0.0%id,0.0%wa,0.0%hi,0.0%si,0.0%st

内存:总共7932720k,使用1243372k,免费6689348k,52244k缓冲区

交换:6160376k总计,0k使用,6160376k免费,267228k缓存

PID用户PR NI VIRT RES SHR S%CPU%MEM TIME + COMMAND

13766 root 20 0 2664m 21m 7048 S 85.4 0.3 190:34.75 java

17688 root 20 0 2664m 19m 7048 S 75.5 0.3 1:05.97 java

12765 root 20 0 2859m 21m 7140 S 36.9 0.3 133:25.46 java

2909 mapred 20 0 1894m 113m 14m S 1.0 1.5 2:55.26 java

1850 root 20 0 1469m 62m 4436 S 0.7 0.8 2:54.53 python

1332 root 20 0 50000 3000 2424 S 0.3 0.0 0:12.04 vmtoolsd

2683 hbase 20 0 1927m 152m 18m S 0.3 2.0 0:36.64 java

Clue2:

-bash-4.1 $ ps -ef | grep 13766 root 13766 1850 99 16:01? 03:12:54 java -classpath /usr/share/cmf/lib/agent-4.6.3.jar com.cloudera.cmon.agent.DnsTest

Clue3:

in cloudera-scm-agent.log,

[30 / Aug / 2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger ERROR超时与args ['java',' - classpath','/ usr / share / cmf / lib / agent-4.6。 3.jar','com.cloudera.cmon.agent.DnsTest'] 没有 [30 / Aug / 2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger错误无法收集基于java的DNS名称 回溯(最近一次调用最后一次):

文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py”,第53行,收集     result,stdout,stderr = self._subprocess_with_timeout(args,self._poll_timeout)

文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py”,第42行,在_subprocess_with_timeout中     return SubprocessTimeout()。subprocess_with_timeout(args,timeout)

文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/subprocess_timeout.py”,第70行,在subprocess_with_timeout

raise Exception("timeout with args %s" % args)

异常:超时使用args ['java',' - classpath','/ usr / share / cmf / lib / agent.4.6.3.jar','com.cloudera.cmon.agent.DnsTest'] < / p>

“cloudera-scm-agent.log”30357行30357 - 100% - col 1

Backgrouds:

  1. 如果我重新启动所有节点,那么每一件事都可以,但是经过一半或一小时或更长时间后,一个接一个地出现健康问题。

  2. 版本:Cloudera Standard 4.6.3(#192由jenkins在20130812-1221 git:fa61cf8559fbefeb5af7f223fd02164d1a0adfdb建立)

  3. 我添加了/ etc / hosts

  4. 中的所有节点
  5. 已安装的CDH为4.3.1。

  6. 实际上,这些节点是具有固定IP地址的虚拟机。

  7. 有什么建议吗?

    BTW,我在哪里可以下载com.cloudera.cmon.agent.DnsTest的源代码?

0 个答案:

没有答案