在给定特定数据大小的情况下,正确的Spark执行程序内存大小

时间:2019-02-22 21:19:22

标签: apache-spark

我在Internet上发现的许多关于资源分配的讨论都是关于--executor-memory的最大内存配置,其中考虑了一些内存开销。

但是我可以想象,对于简单的工作,例如读一个100MB的文件,然后计算行数,节点之间总共有500GB的可用内存集群,我不应该要求执行器的数量和内存分配,考虑到所有内存开销,可以占用全部500GB内存,对吗?甚至1个3GB或5GB内存的执行器似乎都是过大的。我应该如何考虑适合工作的内存大小?

谢谢!

0 个答案:

没有答案