标签: python pandas pyspark
我有一个带有10万行的pyspark df。我正在使用火花
df = pandas_df.toPandas()
这需要大量时间来执行此语法。还有其他方法可以在几秒钟内完成此操作吗? 另外,要以.csv格式保存pyspark数据帧,还需要花费大量时间。为什么会这样?
.csv
答案 0 :(得分:0)
在转换为pandas df之前先尝试对数据帧进行重新分区
df = df.repartition(1) df = df.toPandas()