应用错误收集

我最近配置了10个节点HDP hadoop集群，每个节点都是OS SLES11 ..

在主节点上，我已经配置了所有主服务和客户端......也就是mabari-server。剩余节点其他从属服务及其客户端。

NTP同步已启用，其他先决条件也可以。

我在hadoop集群上遇到奇怪的行为，在几小时内启动所有服务后，其中一个节点出现故障。

当我第一次遇到这种情况时，我已重新启动该特定节点并添加回群集。现在，我的主节点导致同一问题，因为整个群集已关闭。我检查了日志，但没有迹象表明失败。我无能为力导致hadoop集群中节点失败的根本原因是什么？

以下是日志： - 倒下的系统：的的/ var /日志/消息

这些是/ var / log / messages：notice）= 0'，processed ='source（src）= 6830' 4月23日05:22:43 lnx1863 SuSEfirewall2：SuSEfirewall2未激活4月23日 05:23:49 lnx1863 SuSEfirewall2：SuSEfirewall2未激活4月23日 05:24:17 lnx1863 sudo：root：TTY = pts / 0; PWD = /; USER = root; COMMAND = / usr / bin / du -h / Apr 23 05:24:55 lnx1863 SuSEfirewall2： SuSEfirewall2未激活4月23日05:25:22 lnx1863内核： [248531.127254] megasas：在FAULT状态下找到FW，将重置适配器。 4月23日05:25:22 lnx1863内核：[248531.127260] megaraid_sas：重置融合适配器。 4月23日05:25:22 lnx1863内核： [248531.127427] megaraid_sas：不支持重置，杀死适配器。

namenode日志： -

INFO 2015-04-23 05:27:16565 Heartbeat.py:78 - 建立心跳： {responseId = 7607，timestamp = 1429781263665，commandsInProgress = False，componentsMapped = True} INFO 2015-04-23 05：28：44,153 security.py:135 - 遇到通信错误。细节： SSLError（'读取操作超时'，）ERROR 2015-04-23 05：28：44,153 Controller.py:278 - 与http://localhost的连接是丢失（详情=请求 https://localhost:8441/agent/v1/heartbeat/localhostip由于失败而失败连接到服务器时出错：读取操作超时）INFO 2015-04-23 05：29：16,061 NetUtil.py:48 - 连接到 https://localhost:8440/connection_info INFO 2015-04-23 05：29：16,118 security.py:93 - 调用SSL Connect ..连接到服务器

hadoop集群中的一个节点发生故障

0 个答案: