标签: apache-spark
一组任务包括过滤器&地图出现在多个阶段的DAG可视化中。这是否意味着在所有阶段重新计算相同的转换?如果是这样如何解决这个问题?
答案 0 :(得分:1)
对于在数据帧上执行的每个action,将重新计算所有转换。这是因为在执行操作之前不会计算转换。
如果您只有一个操作,则无法执行任何操作,但是,如果多个操作相继执行,则可以在最后一次转换后使用cache()。通过使用此方法,Spark将在第一次计算后将数据帧保存到RAM,从而使后续操作更快。
cache()