如何列出Spark shell中定义的RDD?

时间:2015-11-21 05:37:07

标签: apache-spark pyspark

在“spark-shell”或“pyspark”shell中,我创建了许多RDD,但是我找不到任何可以在我当前的Spark Shell会话中列出所有可用RDD的方法?

1 个答案:

答案 0 :(得分:6)

在Python中,您只需尝试按类型过滤globals

def list_rdds():
    from pyspark import RDD
    return [k for (k, v) in globals().items() if isinstance(v, RDD)]

list_rdds()
# []

rdd = sc.parallelize([])
list_rdds()
# ['rdd']

在Scala REPL中,您应该能够以类似的方式使用$intp.definedTerms / $intp.typeOfTerm