应用错误收集

Spark集群中可用资源有限

时间：2020-08-23 19:09:16

标签： apache-spark hadoop apache-spark-sql

如果我有一个大小为10GB的数据集，而spark集群中只有10GB的资源（执行程序）可用，那么它将如何以编程方式进行处理？

1 个答案:

答案 0 :(得分：0)

您似乎假设Spark可用的内存必须等于或超过数据的大小。事实并非如此。 Spark将根据需要溢出到磁盘上。

此外，压缩将缩小数据的内存占用量。

底线：继续操作而不保留数据（.cache()）。