如果我们减少每个执行者的内核数量并增加执行者的数量,spark会如何影响IO性能

时间:2019-12-08 11:05:44

标签: apache-spark hadoop

根据我的研究,每当我们执行spark作业时,我们都不应运行具有5个以上内核的执行器,如果将内核增加到超出限制的工作量,则会由于I / O吞吐量下降而受到损害。

我的疑问是,如果我们增加执行程序的数量并减少内核,那么即使这些执行程序将最终驻留在同一台物理计算机上,而这些执行程序却将从同一磁盘读取并写入同一磁盘,为什么呢?这不会导致I / O吞吐量问题。

可以考虑 Apache Spark: The number of cores vs. the number of executors

用例供参考。

1 个答案:

答案 0 :(得分:0)

执行器中的核心就像线程。因此,就像如果我们增加并行度需要做更多的工作一样,我们应该始终牢记它是有限度的。因为我们必须从这些并行任务中收集结果。