我想更准确地了解在pyspark
中使用方法缓存for dataframe当我运行df.cache()
时,它会返回一个数据帧。
因此,如果我df2 = df.cache()
,哪个数据帧在缓存中?是df
,df2
还是两者兼而有之?
答案 0 :(得分:10)
我找到了源代码https://spark.apache.org/docs/1.1.1/api/python/pyspark.rdd-pysrc.html#RDD.cache
def cache(self):
"""
Persist this RDD with the default storage level (C{MEMORY_ONLY_SER}).
"""
self.is_cached = True
self.persist(StorageLevel.MEMORY_ONLY_SER)
return self
因此,答案是:两者