如何估计Hortonworks Hadoop集群上的spark执行器数量?

时间:2015-12-03 02:26:46

标签: hadoop apache-spark yarn hortonworks-data-platform

我设置了一个Hortonworks Hadoop集群:

  • Hortonworks版本为2.3.2。
  • 1 NameNode,1 Secondary NameNode,10 DataNode
  • Spark 1.4.1并部署在所有数据节点上。
  • 已安装YARN。

当我运行spark程序时,执行程序仅在4个节点上运行,但不在整个数据节点上运行。

如何估算此类Hadoop集群上的spark执行器数量?

1 个答案:

答案 0 :(得分:0)

您请求的执行程序数量默认为4.如果要请求更多,则必须使用命令行上的spark.executors.instances参数调用或在配置中设置 # service jenkins Usage: /etc/init.d/jenkins {start|stop|status|try-restart|restart|force-reload|reload|probe} 。更多细节在这里: https://spark.apache.org/docs/latest/running-on-yarn.html

因为Spark是在带有YARN的Hortonworks Hadoop上运行的,所以每个Spark客户端都应该部署YARN /节点管理器YARN客户端。否则,将不会安排spark客户端。

实际执行程序与节点管理器和num-executors的最小数量相关。