标签: pyspark apache-spark-sql
我有一个pyspark数据框,我通过hive数据存储区的spark sql查询加载。我知道只有当我在数据帧上调用类似show()的操作时才会执行查询。
如果我多次调用数据帧上的操作,是否会重新执行查询,还是可以对其进行缓存?
答案 0 :(得分:1)
当你调用一个动作时,所有的变换都是根据它的血统(重新)执行的。因此,如果您想提高效果,则必须致电persist() or cache()。在呼吁保持之后,后续行动不必重做其整个血统,而是它的出发点将来自持久的RDD
persist() or cache()