Spark上的Hadoop YARN - 执行者遗失

时间:2016-10-10 22:37:48

标签: hadoop apache-spark yarn apache-spark-1.5

我有一个运行Hadoop和Spark-1.5.2的3台macOS机器的集群(尽管Spark-2.0.0存在同样的问题)。使用'yarn'作为Spark主URL,我遇到了一个奇怪的问题,即任务只分配给3台机器中的2台。

基于Hadoop仪表板(主站上的端口8088),很明显所有3个节点都是集群的一部分。但是,我运行的任何Spark作业只使用2个执行程序。

例如,这是JavaWordCount示例的漫长运行中的“Executors”选项卡: enter image description here “batservers”是主人。应该有一个额外的奴隶,“batservers2”,但它不存在。

为什么会这样?

请注意,除了为YARN资源和节点管理员提供额外内存的规定之外,我的YARN或Spark(或者,就此而言,HDFS)配置都不常见。

1 个答案:

答案 0 :(得分:0)

值得注意的是,只需详细查看spark-submit帮助消息即可找到答案:

  

纱线只:

     

...

     

- num-executors NUM要启动的执行者数量(默认值:2 )。

如果我在spark-submit命令中指定--num-executors 3,则使用第3个节点。