标签: pandas apache-spark pyspark
我最近尝试将一些纯python代码转换为PySpark以处理一些大型数据集。使用我的小测试数据集,我注意到PySpark版本实际上比纯python + pandas数据帧慢。我读了一些评论,这似乎是预期的。
所以现在我有一个普遍的问题:我们使用Spark是因为它更快" (当熊猫数据帧可以放入主内存时,情况似乎不是这样)?或者因为它能够以分布式方式处理大量数据,否则这些数据无法适应内存?