缓存中的Spark作业

时间:2018-11-19 00:54:16

标签: apache-spark caching

在Spark中缓存触发作业的问题:我有以下形式的代码:

df = read_function(...) 

df.cache()

read_function()

组成
  1. 从多个配置单元表读取数据到数据框
  2. 向这些数据框添加新列
  3. 将这些数据框合并为一个数据框
  4. 返回最终数据框

Spark UI显示为df.cache()语句触发的作业。 From Spark UI

据我所知,除union外,没有任何地方可以进行改组操作。是什么触发了这项工作?既然它在2秒钟内运行,似乎没有发生任何缓存,但是由于缓存不应该是一种动作,因此看到由它启动的作业会令人困惑。

我看到其他人也遇到了类似的问题,但是在缓存调用之前先进行排序,然后回答说RDD需要知道分区界限,这才触发了工作。那正确吗? Similar question

0 个答案:

没有答案