应用错误收集

pyspark数据帧是否在第一次加载时被缓存

时间：2018-01-04 14:32:51

标签： pyspark apache-spark-sql

我有一个pyspark数据框，我通过hive数据存储区的spark sql查询加载。我知道只有当我在数据帧上调用类似show（）的操作时才会执行查询。

如果我多次调用数据帧上的操作，是否会重新执行查询，还是可以对其进行缓存？

1 个答案:

答案 0 :(得分：1)

当你调用一个动作时，所有的变换都是根据它的血统（重新）执行的。因此，如果您想提高效果，则必须致电persist() or cache()。在呼吁保持之后，后续行动不必重做其整个血统，而是它的出发点将来自持久的RDD