标签: pyspark pyspark-sql spark-submit
我正在通过连接到oracle使用pyspark处理大型数据集。 我会在任何需要的地方缓存数据帧。完成每个功能后,我将执行spark.catalog.clearCache()和gc.collect。此操作将删除一条记录,而其他记录将被其他值覆盖。 当最终数据帧输出文件时。 无论我测试多少次,相同的记录都会发生这种情况。
任何人都可以告诉我为什么clearCache()会发生这种情况。