仅在抛出异常时Apache Spark RDD持久性

时间:2016-04-21 16:27:57

标签: apache-spark

我正在考虑缓存我的一个RDD,只有在抛出异常并且作业被杀死时才需要更长时间处理。如果我再次运行该作业,我希望它继续失败,避免再次处理该RDD。

有意义吗?同一个工作是否会启动一个不同的Spark上下文无法找到缓存的RDD?

谢谢!

1 个答案:

答案 0 :(得分:1)

Spark程序退出时,缓存数据会丢失。但是,检查点可能是一个选项,因为它会将RDD保存到磁盘。 Check here有待进一步说明。