标签: apache-spark hadoop apache-spark-sql
如果我有一个大小为10GB的数据集,而spark集群中只有10GB的资源(执行程序)可用,那么它将如何以编程方式进行处理?
答案 0 :(得分:0)
您似乎假设Spark可用的内存必须等于或超过数据的大小。事实并非如此。 Spark将根据需要溢出到磁盘上。
此外,压缩将缩小数据的内存占用量。
底线:继续操作而不保留数据(.cache())。
.cache()