如何从sql查询缓存结果数据帧

时间:2017-11-17 16:45:57

标签: apache-spark apache-spark-sql spark-dataframe

我几乎没有看到关于缓存sql表的问题,但似乎没有一个问题正好回答我的问题。

来自查询的结果数据帧(来自sqlContext.sql(“...”))似乎不像常规数据帧那样可缓存。

以下是一些示例代码(spark 2.2):

import org.apache.spark.sql._

def isCached(df: DataFrame) = spark.sharedState.cacheManager.lookupCachedData(df.queryExecution.logical).isDefined

val df = List("1", "2", "3").toDF.cache
df.show
isCached(df) // 1) Here, isCached returns 'true'

df.createOrReplaceTempView("myTable")
spark.catalog.isCached("myTable")

val df2 = spark.sqlContext.sql("select value, count(*) from myTable group by value").cache
df2.show
isCached(df2) // 2) (???) returns 'false'

val df3 = spark.sqlContext.sql("select value, 'a', count(*) from myTable group by value")
df3.registerTempTable("x")
spark.sqlContext.cacheTable("x")
df3.show
spark.catalog.isCached("x") // Returns 'true'
isCached(df3) // 3) (???) Returns 'false'

spark.sqlContext.uncacheTable("myTable")
spark.catalog.isCached("myTable") // OK: Returns 'false'
isCached(df) // OK: Returns 'false'
spark.catalog.isCached("x") // 4) (???) Returns 'false'

Spark UI显示了与df2关联的一些存储空间,但它似乎与df绑定。通常情况下,我们会.cache()后跟.count()来实现,然后在不再需要时unpersist父数据帧。在此示例中,当取消df取消内容时,df2df3的火花用户界面中的存储空间也会消失。

那么我们如何让(2),(3)或最重要的(4)返回真实?

1 个答案:

答案 0 :(得分:0)

过了一段时间,我认为发布我的问题的答案可能会有用。

诀窍是用新的数据帧截断关系谱系。

为此,我致电spark.createDataFrame(df.rdd, df.schema).cache()。 其他人建议调用rdd.cache.count,但这似乎比创建一个没有实现基础rdd的新效率低得多。

import org.apache.spark.sql._

def isCached(df: DataFrame) = spark.sharedState.cacheManager.lookupCachedData(df.queryExecution.logical).isDefined

val df = List("1", "2", "3").toDF.cache
df.count // cache the df.
isCached(df) // 1) Here, isCached returns 'true'

df.createOrReplaceTempView("myTable")
spark.catalog.isCached("myTable")

val df2Temp = spark.sqlContext.sql("select value, count(*) from myTable group by value")
// truncate lineage and materialize new dataframe
val df2Cached = spark.createDataFrame(df2Temp.rdd, df2Temp.schema).cache
df2Cached.count
isCached(df2Cached) // 2) returns 'true'
df2Cached.createOrReplaceTempView("x")

// Still cached
isCached(df) 
spark.catalog.isCached("myTable")

// parent df not needed anymore
spark.sqlContext.uncacheTable("myTable")
spark.catalog.isCached("myTable") // OK: Returns 'false'
isCached(df) // OK: Returns 'false'

spark.catalog.isCached("x") // Still cached