应用错误收集

pyspark dataframe.write.format（“ libsvm”）。save（）花费太多时间

时间：2019-09-27 12:08:20

标签： python dataframe pyspark

我有一个带有约一万条记录的pyspark数据框，同时使用pyspark api转储了整个数据集。需要10秒。当我使用filter api选择10条记录并再次转储temp_df时。需要8秒，为什么要花这么长时间？我该如何改善？谢谢！

MLUtils.convertVectorColumnsToML(dataframe).write.format("libsvm").save('path'), mode='overwrite'),

temp_df = dataframe.filter(train_df['__index'].between(int(0,10))

0 个答案:

没有答案