Spark数据帧执行

时间:2017-03-26 07:57:00

标签: apache-spark pyspark

我想了解spark数据帧的执行情况。我已经完成了日志并解释了计划,但我不清楚。我的问题是说我有火花程序,我有一些系列的数据框,如下面做了一些事情

df1 = gets some data
df2 = gets some other data
df3 = df1.join(df2....)
df4= df3.join(some other data set)
df5 = df3.join(some other data set)
d6 = d4.join(some other data set)
d7 = d5.join(some other data set)
d6.write...()
d7.write...()

让我们说上面是一系列数据帧。所以我的问题是,当发出d6.write时,df1,df2,df3,df4是否被执行,当发出d7.write时,再次执行df1,df2,df3,d5?坚持使用d3数据帧是个好主意吗?

1 个答案:

答案 0 :(得分:0)

  

当发出d6.write时,df1,df2,df3,df4是否被执行,当发出d7.write时,再次执行df1,df2,df3,d5?

答案:是的

  

坚持使用d3数据帧是个好主意吗?

答案:是的