有什么办法可以加快pyspark中的缓存过程?

时间:2020-07-20 15:25:51

标签: python pyspark

我正在尝试缓存3列27行的基于Pyspark的数据帧,此过程大约需要7到10秒。

反正有加速工作吗?

谢谢!

1 个答案:

答案 0 :(得分:2)

您可以尝试以下任何一种方法:

  • 将您的数据框合并到单个分区中,例如。 df.coalesce(1),然后将其缓存
  • 由于您的数据帧非常小,您可以将其作为熊猫数据帧加载到内存中。 toPandas()可以在这方面为您提供帮助。不要忘记使用箭头火花设置使其更快。 spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true")