我想了解spark数据帧的执行情况。我已经完成了日志并解释了计划,但我不清楚。我的问题是说我有火花程序,我有一些系列的数据框,如下面做了一些事情
df1 = gets some data
df2 = gets some other data
df3 = df1.join(df2....)
df4= df3.join(some other data set)
df5 = df3.join(some other data set)
d6 = d4.join(some other data set)
d7 = d5.join(some other data set)
d6.write...()
d7.write...()
让我们说上面是一系列数据帧。所以我的问题是,当发出d6.write时,df1,df2,df3,df4是否被执行,当发出d7.write时,再次执行df1,df2,df3,d5?坚持使用d3数据帧是个好主意吗?
答案 0 :(得分:0)
当发出d6.write时,df1,df2,df3,df4是否被执行,当发出d7.write时,再次执行df1,df2,df3,d5?
答案:是的
坚持使用d3数据帧是个好主意吗?
答案:是的