为什么Apache-Spark-Python在本地比熊猫慢?

时间:2018-02-15 20:01:47

标签: python pandas apache-spark pyspark apache-spark-sql

这里有一个Spark新手。 我最近使用以下命令开始在我的本地计算机上使用Spark编写Spark:

pyspark --master local[2]

我有一个393Mb的文本文件,有近百万行。我想执行一些数据操作操作。我使用PySpark的内置数据框函数来执行简单的操作,如groupBysummaxstddev

但是,当我在完全相同的数据集上对pandas执行完全相同的操作时,pandas似乎在延迟方面大大打败了pyspark。

我想知道这可能是什么原因。我有几点想法。

  1. 内置函数是否低效地执行序列化/反序列化过程?如果是,那么它们的替代方案是什么?
  2. 数据集是否太小,以至于无法超过运行spark的基础JVM的开销成本?
  3. 谢谢你的期待。非常感谢。

1 个答案:

答案 0 :(得分:39)

由于:

你可以这样长时间继续......