我最近配置了10个节点HDP hadoop集群,每个节点都是OS SLES11 ..
在主节点上,我已经配置了所有主服务和客户端......也就是mabari-server。剩余节点其他从属服务及其客户端。
NTP同步已启用,其他先决条件也可以。
我在hadoop集群上遇到奇怪的行为,在几小时内启动所有服务后,其中一个节点出现故障。
当我第一次遇到这种情况时,我已重新启动该特定节点并添加回群集。 现在,我的主节点导致同一问题,因为整个群集已关闭。我检查了日志,但没有迹象表明失败。 我无能为力导致hadoop集群中节点失败的根本原因是什么?
以下是日志: - 倒下的系统: 的的/ var /日志/消息
这些是/ var / log / messages:notice)= 0',processed ='source(src)= 6830' 4月23日05:22:43 lnx1863 SuSEfirewall2:SuSEfirewall2未激活4月23日 05:23:49 lnx1863 SuSEfirewall2:SuSEfirewall2未激活4月23日 05:24:17 lnx1863 sudo:root:TTY = pts / 0; PWD = /; USER = root; COMMAND = / usr / bin / du -h / Apr 23 05:24:55 lnx1863 SuSEfirewall2: SuSEfirewall2未激活4月23日05:25:22 lnx1863内核: [248531.127254] megasas:在FAULT状态下找到FW,将重置适配器。 4月23日05:25:22 lnx1863内核:[248531.127260] megaraid_sas: 重置融合适配器。 4月23日05:25:22 lnx1863内核: [248531.127427] megaraid_sas:不支持重置,杀死适配器。
namenode日志: -
INFO 2015-04-23 05:27:16565 Heartbeat.py:78 - 建立心跳: {responseId = 7607,timestamp = 1429781263665,commandsInProgress = False,componentsMapped = True} INFO 2015-04-23 05:28:44,153 security.py:135 - 遇到通信错误。细节: SSLError('读取操作超时',)ERROR 2015-04-23 05:28:44,153 Controller.py:278 - 与http://localhost的连接是 丢失(详情=请求 https://localhost:8441/agent/v1/heartbeat/localhostip由于失败而失败 连接到服务器时出错:读取操作 超时)INFO 2015-04-23 05:29:16,061 NetUtil.py:48 - 连接到 https://localhost:8440/connection_info INFO 2015-04-23 05:29:16,118 security.py:93 - 调用SSL Connect ..连接到服务器