Question

我想了解spark数据帧的执行情况。我已经完成了日志并解释了计划，但我不清楚。我的问题是说我有火花程序，我有一些系列的数据框，如下面做了一些事情

df1 = gets some data
df2 = gets some other data
df3 = df1.join(df2....)
df4= df3.join(some other data set)
df5 = df3.join(some other data set)
d6 = d4.join(some other data set)
d7 = d5.join(some other data set)
d6.write...()
d7.write...()

让我们说上面是一系列数据帧。所以我的问题是，当发出d6.write时，df1，df2，df3，df4是否被执行，当发出d7.write时，再次执行df1，df2，df3，d5？坚持使用d3数据帧是个好主意吗？

Answer 1

当发出d6.write时，df1，df2，df3，df4是否被执行，当发出d7.write时，再次执行df1，df2，df3，d5？

答案：是的

坚持使用d3数据帧是个好主意吗？

答案：是的

Spark数据帧执行

1 个答案: