在Spark中缓存触发作业的问题:我有以下形式的代码:
df = read_function(...)
df.cache()
read_function()
由
Spark UI显示为df.cache()
语句触发的作业。 From Spark UI
据我所知,除union
外,没有任何地方可以进行改组操作。是什么触发了这项工作?既然它在2秒钟内运行,似乎没有发生任何缓存,但是由于缓存不应该是一种动作,因此看到由它启动的作业会令人困惑。
我看到其他人也遇到了类似的问题,但是在缓存调用之前先进行排序,然后回答说RDD需要知道分区界限,这才触发了工作。那正确吗? Similar question