我们使用Spark是因为它更快还是因为它可以处理大量数据?

时间:2018-06-11 17:19:53

标签: pandas apache-spark pyspark

我最近尝试将一些纯python代码转换为PySpark以处理一些大型数据集。使用我的小测试数据集,我注意到PySpark版本实际上比纯python + pandas数据帧慢。我读了一些评论,这似乎是预期的。

所以现在我有一个普遍的问题:我们使用Spark是因为它更快"  (当熊猫数据帧可以放入主内存时,情况似乎不是这样)?或者因为它能够以分布式方式处理大量数据,否则这些数据无法适应内存?

0 个答案:

没有答案