标签: apache-spark
我在Internet上发现的许多关于资源分配的讨论都是关于--executor-memory的最大内存配置,其中考虑了一些内存开销。
但是我可以想象,对于简单的工作,例如读一个100MB的文件,然后计算行数,节点之间总共有500GB的可用内存集群,我不应该要求执行器的数量和内存分配,考虑到所有内存开销,可以占用全部500GB内存,对吗?甚至1个3GB或5GB内存的执行器似乎都是过大的。我应该如何考虑适合工作的内存大小?
谢谢!