pandas - 我们使用Spark是因为它更快还是因为它可以处理大量数据？ - Thinbug

我们使用Spark是因为它更快还是因为它可以处理大量数据？

时间：2018-06-11 17:19:53

标签： pandas apache-spark pyspark

我最近尝试将一些纯python代码转换为PySpark以处理一些大型数据集。使用我的小测试数据集，我注意到PySpark版本实际上比纯python + pandas数据帧慢。我读了一些评论，这似乎是预期的。

所以现在我有一个普遍的问题：我们使用Spark是因为它更快＆＃34; （当熊猫数据帧可以放入主内存时，情况似乎不是这样）？或者因为它能够以分布式方式处理大量数据，否则这些数据无法适应内存？

0 个答案:

没有答案