在pyspark中缓存数据帧

时间:2017-12-04 18:07:15

标签: caching pyspark

我想更准确地了解在pyspark

中使用方法缓存for dataframe

当我运行df.cache()时,它会返回一个数据帧。 因此,如果我df2 = df.cache(),哪个数据帧在缓存中?是dfdf2还是两者兼而有之?

1 个答案:

答案 0 :(得分:10)

我找到了源代码https://spark.apache.org/docs/1.1.1/api/python/pyspark.rdd-pysrc.html#RDD.cache

def cache(self): 
    """ 
    Persist this RDD with the default storage level (C{MEMORY_ONLY_SER}). 
    """ 
    self.is_cached = True 
    self.persist(StorageLevel.MEMORY_ONLY_SER) 
    return self 

因此,答案是:两者