标签: python pyspark
我正在尝试缓存3列27行的基于Pyspark的数据帧,此过程大约需要7到10秒。
反正有加速工作吗?
谢谢!
答案 0 :(得分:2)
您可以尝试以下任何一种方法:
df.coalesce(1)
spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true")
spark.conf.set("spark.sql.execution.arrow.enabled", "true")