标签: apache-spark rdd
我有一个(非常)小的Spark群集,用作沙坑'几个人的环境。有时,我需要在维护集群的过程中重新启动工作节点。
如果正在运行的作业正在处理已.cache()的RDD,并且工作人员正常停止(通过在该节点上运行./stop-slave.sh),该部分会发生什么情况缓存的RDD?
.cache()
./stop-slave.sh
我能想到的两个场景(假设RDD的存储级别为MEMORY_ONLY,没有复制)是:
MEMORY_ONLY
documentation表示该分区将被重新计算,但不清楚这是否涵盖了“优雅”的分区。工人关机。