我安装了以下Spark基准测试:
https://github.com/BBVA/spark-benchmarks
我在8位工作人员的YARN上运行Spark,但是在工作期间(TestDFSIO)我只有2位运行的执行程序。
我也将executor-cores
设置为9,但只有2个正在运行。
为什么会这样?
我认为问题出在YARN,因为我在Hadoop上遇到了与TestDFSIO类似(几乎)的问题。实际上,在工作开始时,只有两个节点运行,但是随后所有节点并行执行应用程序!
请注意,我没有使用HDFS进行存储!
答案 0 :(得分:0)
我解决了这个问题。我所做的是将每个执行者的内核数设置为5(--executor-cores
),将执行者的总数设置为23(--num-executors
),默认情况下,前者为2。