将100k行pyspark df转换为pandas df

时间:2020-07-28 17:24:38

标签: python pandas pyspark

我有一个带有10万行的pyspark df。我正在使用火花

df = pandas_df.toPandas()

这需要大量时间来执行此语法。还有其他方法可以在几秒钟内完成此操作吗? 另外,要以.csv格式保存pyspark数据帧,还需要花费大量时间。为什么会这样?

1 个答案:

答案 0 :(得分:0)

在转换为pandas df之前先尝试对数据帧进行重新分区

df = df.repartition(1)
df = df.toPandas()