Question

这里有一个Spark新手。我最近使用以下命令开始在我的本地计算机上使用Spark编写Spark：

pyspark --master local[2]

我有一个393Mb的文本文件，有近百万行。我想执行一些数据操作操作。我使用PySpark的内置数据框函数来执行简单的操作，如groupBy，sum，max，stddev。

但是，当我在完全相同的数据集上对pandas执行完全相同的操作时，pandas似乎在延迟方面大大打败了pyspark。

我想知道这可能是什么原因。我有几点想法。

谢谢你的期待。非常感谢。

Answer 1

由于：

Apache Spark是一个复杂的框架，旨在将处理分布在数百个节点上，同时确保正确性和容错性。这些属性中的每一个都有很高的成本。
因为纯粹的内存内核处理（Pandas）比磁盘和网络（甚至是本地）I / O（Spark）快几个数量级。
因为并行性（和分布式处理）会增加大量开销，即使是最佳（令人尴尬的并行工作负载）也不能保证任何性能提升。
因为本地模式不是为性能而设计的。它用于测试。
最后但并非最不重要 - 在393MB上运行的2个核心不足以看到任何性能改进，单个节点也没有提供任何分发机会
还Spark: Inconsistent performance number in scaling number of cores，Why is pyspark so much slower in finding the max of a column?，Why does my Spark run slower than pure Python? Performance comparison

你可以这样长时间继续......