Question

我有一个带有10万行的pyspark df。我正在使用火花

df = pandas_df.toPandas()

这需要大量时间来执行此语法。还有其他方法可以在几秒钟内完成此操作吗？另外，要以.csv格式保存pyspark数据帧，还需要花费大量时间。为什么会这样？

Answer 1

在转换为pandas df之前先尝试对数据帧进行重新分区

df = df.repartition(1)
df = df.toPandas()