在“spark-shell”或“pyspark”shell中,我创建了许多RDD,但是我找不到任何可以在我当前的Spark Shell会话中列出所有可用RDD的方法?
答案 0 :(得分:6)
在Python中,您只需尝试按类型过滤globals
:
def list_rdds():
from pyspark import RDD
return [k for (k, v) in globals().items() if isinstance(v, RDD)]
list_rdds()
# []
rdd = sc.parallelize([])
list_rdds()
# ['rdd']
在Scala REPL中,您应该能够以类似的方式使用$intp.definedTerms
/ $intp.typeOfTerm
。