存储Spark RDD Lineage的位置?根据关于RDD的白皮书,它持久存储在内存中,但想知道它是在驱动程序端还是集群上的其他位置。
此外,如何确保容错,即默认创建多少次RDD(元数据)复制?
当我们不使用persist()方法时,我想了解核心框架行为。
答案 0 :(得分:4)
RDD血统依赖于RDD所在的驱动程序。提交作业时,此信息不再相关。这是任何RDD的内部部分,这就是它如何了解父母。
当驱动程序失败时,RDD沿袭就像整个计算一样消失了。司机是......嗯...司机,没有它真的没有发生。