如何访问应该从DAGScheduler缓存的RDD?

时间:2017-02-21 19:46:21

标签: caching apache-spark scheduler rdd directed-acyclic-graphs

有谁知道如何从DAGScheduler中提取应该缓存的RDD。不是真正缓存的那些,而是在阶段执行之前要缓存的那些。

1 个答案:

答案 0 :(得分:0)

您可以使用SparkContext.getPersistentRDDs

spark.sparkContext.getPersistentRDDs: Map[Int, RDD[_]]
  

返回通过cache()调用将自己标记为持久性的RDD的不可变映射。