Spark集群中可用资源有限

时间:2020-08-23 19:09:16

标签: apache-spark hadoop apache-spark-sql

如果我有一个大小为10GB的数据集,而spark集群中只有10GB的资源(执行程序)可用,那么它将如何以编程方式进行处理?

1 个答案:

答案 0 :(得分:0)

您似乎假设Spark可用的内存必须等于或超过数据的大小。事实并非如此。 Spark将根据需要溢出到磁盘上。

此外,压缩将缩小数据的内存占用量。

底线:继续操作而不保留数据(.cache())。