Hortonworks数据平台:高负载导致节点重启

时间:2017-06-26 14:55:01

标签: hadoop crash load hortonworks-data-platform

我已经使用Hortonworks Data Platform 2.5设置了Hadoop集群。我使用1个主节点和5个从属(工作)节点。

每隔几天,我的一个(或多个)工作节点负载很高,似乎会自动重启整个CentOS操作系统。重启后,Hadoop组件不再运行,必须通过Amabri管理UI手动重启。

这是"崩溃"的屏幕截图节点(高负载值~4小时前重启): enter image description here

这是其他一个"健康" worker节点(所有其他worker具有相似的值): enter image description here

节点崩溃在5个工作节点之间交替,主节点似乎没有问题。

什么可能导致这个问题?这些高负荷值来自哪里?

1 个答案:

答案 0 :(得分:0)

这似乎是一个内核问题,因为日志文件(例如/var/spool/abrt/vmcore-127.0.0.1-2017-06-26-12:27:34/backtrace)表示类似

Version: 3.10.0-327.el7.x86_64
BUG: unable to handle kernel NULL pointer dereference at 00000000000001a0

运行sudo yum update后,我有了内核版本

[root@myhost ~]# uname -r
3.10.0-514.26.2.el7.x86_64

由于操作系统更新问题不再发生。如有需要,我会观察问题并提供反馈。