Pyspark Dataframe用于持久和cache()的默认存储级别

时间:2019-12-17 07:23:07

标签: pyspark apache-spark-sql

P是一个数据帧。 我在存储级别观察到以下行为:

P.cache()
P.storageLevel
StorageLevel(True, True, False, True, 1)
P.unpersist()
P.StorageLevel
StorageLevel(False, False, False, False, 1)
P.persist()
StorageLevel(True, True, False, True, 1)

这显示持久性的默认值,并且缓存为MEM_DISk 我在文档中读到,缓存的默认值为MEM_ONLY 请帮助我理解。

1 个答案:

答案 0 :(得分:1)

来自PySpark文档:

  

注意默认存储级别已更改为MEMORY_AND_DISK以匹配2.0版的Scala。

您可以在这里找到:Latest PySpark docs