pyspark dataframe.write.format(“ libsvm”)。save()花费太多时间

时间:2019-09-27 12:08:20

标签: python dataframe pyspark

我有一个带有约一万条记录的pyspark数据框,同时使用pyspark api转储了整个数据集。需要10秒。当我使用filter api选择10条记录并再次转储temp_df时。需要8秒,为什么要花这么长时间?我该如何改善?谢谢!

MLUtils.convertVectorColumnsToML(dataframe).write.format("libsvm").save('path'), mode='overwrite'),

temp_df = dataframe.filter(train_df['__index'].between(int(0,10))

0 个答案:

没有答案