为什么Spark应用程序未在所有节点上运行

时间:2019-07-02 16:30:20

标签: apache-spark hadoop benchmarking

我安装了以下Spark基准测试: https://github.com/BBVA/spark-benchmarks 我在8位工作人员的YARN上运行Spark,但是在工作期间(TestDFSIO)我只有2位运行的执行程序。 我也将executor-cores设置为9,但只有2个正在运行。 为什么会这样?

我认为问题出在YARN,因为我在Hadoop上遇到了与TestDFSIO类似(几乎)的问题。实际上,在工作开始时,只有两个节点运行,但是随后所有节点并行执行应用程序!

请注意,我没有使用HDFS进行存储!

1 个答案:

答案 0 :(得分:0)

我解决了这个问题。我所做的是将每个执行者的内核数设置为5(--executor-cores),将执行者的总数设置为23(--num-executors),默认情况下,前者为2。