标签: apache-spark
我正在运行我的spark SQL应用程序,并且看到创建的阶段在DAG中有一个执行步骤,其中在内部创建的每个RDD中都有高速缓存操作。在我的应用程序中,我有一系列语句(例如val df1 = .....),在完成所有转换后,我先缓存,然后对最后一个数据帧进行计数。我想了解为什么DAG会显示所有内容的缓存。DAG of a stage
答案 0 :(得分:1)
它不会在每一步都进行缓存。 DAG可视化的持久性由绿色圆圈表示。
您看到的“缓存”是指导致作业执行的调用点。