我有一个带有约一万条记录的pyspark数据框,同时使用pyspark api转储了整个数据集。需要10秒。当我使用filter api选择10条记录并再次转储temp_df时。需要8秒,为什么要花这么长时间?我该如何改善?谢谢!
MLUtils.convertVectorColumnsToML(dataframe).write.format("libsvm").save('path'), mode='overwrite'),
temp_df = dataframe.filter(train_df['__index'].between(int(0,10))