我计划在多节点集群上进行火花流传输。我需要在spark集群上使用哪种健康检查脚本。任何人都可以提供任何样本吗? 想检查火花是否运行良好或任何节点发生故障等等。
答案 0 :(得分:0)
嗯,并非你想做的所有事情都是一体的。
对于火花工作 - 您需要决定如何处理故障。这是基于您的业务要求 - 如果整个作业失败一个坏行,或只是继续工作并累积不良记录。假设所有工作节点都很好
根据您使用的分发,您可以管理节点运行状况。 Cloudera Distribution提供了很多有关健康的详细信息,当您看到有关内存的红色信号等时。
使用oozie或任何工作流程管理,您还可以在作业失败时为其配置电子邮件警报