群集中的节点发生故障时的Apache Spark行为。

时间:2015-04-16 18:24:45

标签: apache-spark

将分区发送到节点并且节点在执行作业之前崩溃时的行为是什么?如果在集群中引入了新节点,那么检测添加此新计算机的实体是什么?是否为新机器分配了未经处理的分区?

1 个答案:

答案 0 :(得分:1)

如果工作者在过去60秒内没有收到心跳消息,则认为该工作人员失败(根据spark.worker.timeout)。在这种情况下,分区被分配给另一个工作者(记住分区的RDD即使丢失也可以重建)。

关于是否将新节点引入群集的问题?一旦启动了从属服务器,spark-master将不会检测到集群中的新节点添加,因为在集群中的application-submit之前,sbin/start-master.sh启动主服务器,sbin/start-slaves.sh读取conf/slaves文件(包含所有从站的IP地址)在spark-master机器中,并在指定的每台机器上启动从属实例。启动后,spark-master将不会读取此配置文件。因此,一旦所有从站启动,就无法添加新节点。