问题:
越来越多的数据节点在Cloudera Manager中变得不健康。
Clue1:
没有任何任务或工作,只是这里的空闲数据节点,
-bash-4.1 $ top 热门 - 18:27:22 up 4:59,3位用户,平均负载:4.55,3.52,3.18
任务:共139次,1次跑步,137次睡眠,1次停止,0次僵尸
Cpu(s):14.8%us,85.2%sy,0.0%ni,0.0%id,0.0%wa,0.0%hi,0.0%si,0.0%st
内存:总共7932720k,使用1243372k,免费6689348k,52244k缓冲区
交换:6160376k总计,0k使用,6160376k免费,267228k缓存PID用户PR NI VIRT RES SHR S%CPU%MEM TIME + COMMAND
13766 root 20 0 2664m 21m 7048 S 85.4 0.3 190:34.75 java
17688 root 20 0 2664m 19m 7048 S 75.5 0.3 1:05.97 java
12765 root 20 0 2859m 21m 7140 S 36.9 0.3 133:25.46 java
2909 mapred 20 0 1894m 113m 14m S 1.0 1.5 2:55.26 java
1850 root 20 0 1469m 62m 4436 S 0.7 0.8 2:54.53 python
1332 root 20 0 50000 3000 2424 S 0.3 0.0 0:12.04 vmtoolsd
2683 hbase 20 0 1927m 152m 18m S 0.3 2.0 0:36.64 java
Clue2:
-bash-4.1 $ ps -ef | grep 13766 root 13766 1850 99 16:01? 03:12:54 java -classpath /usr/share/cmf/lib/agent-4.6.3.jar com.cloudera.cmon.agent.DnsTest
Clue3:
in cloudera-scm-agent.log,
[30 / Aug / 2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger ERROR超时与args ['java',' - classpath','/ usr / share / cmf / lib / agent-4.6。 3.jar','com.cloudera.cmon.agent.DnsTest'] 没有 [30 / Aug / 2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger错误无法收集基于java的DNS名称 回溯(最近一次调用最后一次):
文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py”,第53行,收集 result,stdout,stderr = self._subprocess_with_timeout(args,self._poll_timeout)
文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py”,第42行,在_subprocess_with_timeout中 return SubprocessTimeout()。subprocess_with_timeout(args,timeout)
文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/subprocess_timeout.py”,第70行,在subprocess_with_timeout
raise Exception("timeout with args %s" % args)
异常:超时使用args ['java',' - classpath','/ usr / share / cmf / lib / agent.4.6.3.jar','com.cloudera.cmon.agent.DnsTest'] < / p>
“cloudera-scm-agent.log”30357行30357 - 100% - col 1
Backgrouds:
如果我重新启动所有节点,那么每一件事都可以,但是经过一半或一小时或更长时间后,一个接一个地出现健康问题。
版本:Cloudera Standard 4.6.3(#192由jenkins在20130812-1221 git:fa61cf8559fbefeb5af7f223fd02164d1a0adfdb建立)
我添加了/ etc / hosts
已安装的CDH为4.3.1。
实际上,这些节点是具有固定IP地址的虚拟机。
有什么建议吗?
BTW,我在哪里可以下载com.cloudera.cmon.agent.DnsTest的源代码?