应用错误收集

群集中的节点发生故障时的Apache Spark行为。

时间：2015-04-16 18:24:45

标签： apache-spark

将分区发送到节点并且节点在执行作业之前崩溃时的行为是什么？如果在集群中引入了新节点，那么检测添加此新计算机的实体是什么？是否为新机器分配了未经处理的分区？

1 个答案:

答案 0 :(得分：1)

如果工作者在过去60秒内没有收到心跳消息，则认为该工作人员失败（根据spark.worker.timeout）。在这种情况下，分区被分配给另一个工作者（记住分区的RDD即使丢失也可以重建）。

关于是否将新节点引入群集的问题？一旦启动了从属服务器，spark-master将不会检测到集群中的新节点添加，因为在集群中的application-submit之前，sbin/start-master.sh启动主服务器，sbin/start-slaves.sh读取conf/slaves文件（包含所有从站的IP地址）在spark-master机器中，并在指定的每台机器上启动从属实例。启动后，spark-master将不会读取此配置文件。因此，一旦所有从站启动，就无法添加新节点。