标签: apache-spark
PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势?我试图将这个(以及其他功能)与基于IPy Parallel的方法进行比较。
答案 0 :(得分:0)
spark-shell(使用scala)/ pyspark适用于Superfast集群计算。
这一切都取决于群集的大小,特别是您要分配给每个工作人员的SPARK_WORKER_MEMORY。
如果您的数据更适合内存,那么spark将有效地利用DISK(以及内存)。
希望这会有所帮助:)