标签: caching apache-spark scheduler rdd directed-acyclic-graphs
有谁知道如何从DAGScheduler中提取应该缓存的RDD。不是真正缓存的那些,而是在阶段执行之前要缓存的那些。
答案 0 :(得分:0)
您可以使用SparkContext.getPersistentRDDs:
SparkContext.getPersistentRDDs
spark.sparkContext.getPersistentRDDs: Map[Int, RDD[_]]
返回通过cache()调用将自己标记为持久性的RDD的不可变映射。