spark会在DAG中重复使用rdd进行单一操作吗?

时间:2018-01-18 09:51:16

标签: apache-spark

spark会在DAG中重复使用rdd进行单一操作吗?

  • 案例1
val df1 = spark.sql("select id, value from table")
val df2 = spark.sql("select id, value from table")

df1.join(df2, "id").show()
  • 案例2
val df1 = spark.sql("select id, value from table")
val df2 =  df1.filter($"value" > 0)

df1.join(df2, "id").show()

问题

  • 在case1中,查询select id, value from table只会执行一次吗?
  • 在case2中,查询是否只会执行一次?
  • 如果没有,我如何优化代码以使查询只执行一次,因为查询可能非常慢。

0 个答案:

没有答案