我有5个节点的hadoop集群。
我有两个问题
1)当节点之一正在运行或与其他节点相比非常慢(未停止)处理数据时,该怎么办?
2)我已经设置了log4j来捕获日志,但是如何将所有节点的日志保留在Name节点或一个主服务器上呢?
请建议...!
谢谢
答案 0 :(得分:1)
要问的是,尚不清楚哪种服务运行缓慢... Datanode?名称节点?也许您需要增加这些进程的堆大小,或者存储的数据集严重偏向该服务器。
您需要安装监视软件来捕获IO,CPU,网络等指标,才能真正诊断出任何硬件瓶颈。从那里,确保一台服务器正在运行最新的OS补丁程序,具有最新的驱动程序以及要与之进行比较的其他计算机的类似硬件配置文件。也许硬盘驱动器或NIC出现故障,但是如果没有硬件诊断软件,就很难知道
对于问题2,您再次需要其他软件(例如Elasticsearch)来从多个系统集中收集日志并为其建立索引