apache-spark - 缓存中的Spark作业

在Spark中缓存触发作业的问题：我有以下形式的代码：

df = read_function(...) 

df.cache()

read_function()由

组成

Spark UI显示为df.cache()语句触发的作业。 From Spark UI

据我所知，除union外，没有任何地方可以进行改组操作。是什么触发了这项工作？既然它在2秒钟内运行，似乎没有发生任何缓存，但是由于缓存不应该是一种动作，因此看到由它启动的作业会令人困惑。

我看到其他人也遇到了类似的问题，但是在缓存调用之前先进行排序，然后回答说RDD需要知道分区界限，这才触发了工作。那正确吗？ Similar question