应用错误收集

如何估计Hortonworks Hadoop集群上的spark执行器数量？

时间：2015-12-03 02:26:46

标签： hadoop apache-spark yarn hortonworks-data-platform

我设置了一个Hortonworks Hadoop集群：

Hortonworks版本为2.3.2。
1 NameNode，1 Secondary NameNode，10 DataNode
Spark 1.4.1并部署在所有数据节点上。
已安装YARN。

当我运行spark程序时，执行程序仅在4个节点上运行，但不在整个数据节点上运行。

如何估算此类Hadoop集群上的spark执行器数量？

1 个答案:

答案 0 :(得分：0)

您请求的执行程序数量默认为4.如果要请求更多，则必须使用命令行上的spark.executors.instances参数调用或在配置中设置# service jenkins Usage: /etc/init.d/jenkins {start|stop|status|try-restart|restart|force-reload|reload|probe}。更多细节在这里： https://spark.apache.org/docs/latest/running-on-yarn.html

因为Spark是在带有YARN的Hortonworks Hadoop上运行的，所以每个Spark客户端都应该部署YARN /节点管理器YARN客户端。否则，将不会安排spark客户端。

实际执行程序与节点管理器和num-executors的最小数量相关。