这里有一个Spark新手。 我最近使用以下命令开始在我的本地计算机上使用Spark编写Spark:
pyspark --master local[2]
我有一个393Mb的文本文件,有近百万行。我想执行一些数据操作操作。我使用PySpark的内置数据框函数来执行简单的操作,如groupBy
,sum
,max
,stddev
。
但是,当我在完全相同的数据集上对pandas执行完全相同的操作时,pandas似乎在延迟方面大大打败了pyspark。
我想知道这可能是什么原因。我有几点想法。
谢谢你的期待。非常感谢。
答案 0 :(得分:39)
由于:
你可以这样长时间继续......