存储Spark RDD血统的地方?

时间:2016-01-11 03:31:11

标签: apache-spark rdd

存储Spark RDD Lineage的位置?根据关于RDD的白皮书,它持久存储在内存中,但想知道它是在驱动程序端还是集群上的其他位置。

此外,如何确保容错,即默认创建多少次RDD(元数据)复制?

当我们不使用persist()方法时,我想了解核心框架行为。

1 个答案:

答案 0 :(得分:4)

RDD血统依赖于RDD所在的驱动程序。提交作业时,此信息不再相关。这是任何RDD的内部部分,这就是它如何了解父母。

当驱动程序失败时,RDD沿袭就像整个计算一样消失了。司机是......嗯...司机,没有它真的没有发生。