unpersist()async vs sync

时间:2017-08-10 16:49:33

标签: apache-spark spark-dataframe spark-streaming

我正在开发一个流媒体应用程序并尝试取消使用Dataframe,因此最好使用它来清除缓存unpersist() - async调用 或unpersist(true) - 阻止呼叫

哪个更好用,为什么?,DF中的数据大小接近150Gb。 在这两种情况下内部会发生什么

df.unpersist() //df is a cached dataframe
val inputDf: DataFrame = readFile(spec, sparkSession) //read file from S3
or anyother source
val recreateddf = inputDf.persist()

Spark文档

DataFrame   unpersist() 
DataFrame   unpersist(boolean blocking) 

https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/DataFrame.html

0 个答案:

没有答案