应用错误收集

有什么办法可以加快pyspark中的缓存过程？

时间：2020-07-20 15:25:51

标签： python pyspark

我正在尝试缓存3列27行的基于Pyspark的数据帧，此过程大约需要7到10秒。

反正有加速工作吗？

谢谢！

1 个答案:

答案 0 :(得分：2)

您可以尝试以下任何一种方法：

将您的数据框合并到单个分区中，例如。 df.coalesce(1)，然后将其缓存
由于您的数据帧非常小，您可以将其作为熊猫数据帧加载到内存中。 toPandas（）可以在这方面为您提供帮助。不要忘记使用箭头火花设置使其更快。 spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true")