spark.catalog.clearCache()删除一条记录

时间:2019-06-25 16:01:27

标签: pyspark pyspark-sql spark-submit

我正在通过连接到oracle使用pyspark处理大型数据集。 我会在任何需要的地方缓存数据帧。完成每个功能后,我将执行spark.catalog.clearCache()和gc.collect。此操作将删除一条记录,而其他记录将被其他值覆盖。 当最终数据帧输出文件时。 无论我测试多少次,相同的记录都会发生这种情况。

任何人都可以告诉我为什么clearCache()会发生这种情况。

0 个答案:

没有答案