在纱线群上设置火花时需要哪些守护进程?

时间:2016-02-01 00:52:45

标签: hadoop apache-spark cluster-computing yarn

我理解以下是spark cluster

所需的守护进程
  1. 工人(奴隶)
  2. 驱动程序(在应用程序被提交时启动)
  3. 执行程序(在应用程序被提交时启动)
  4. 我在Spark上设置纱线群时有一些非常基本的问题

    1. 是否有任何主守护程序或工作人员守护程序单独启动spark?我理解纱线集群本身的资源管理器和节点管理器将充当火花作业的主人和工人。从这篇文章http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/来看,纱线上的火花似乎没有主/从守护进程。
    2. 如果对上述问题的回答是否定的。当我们尝试在现有纱线上设置火花时,我们是否需要在提交火花应用之前启动任何持久守护进程?
    3. 在这种情况下,spark-1.5.0-bin-hadoop2.4 \ sbin目录下的任何启停脚本都会有用吗?
    4. 一旦驱动程序执行完毕,Spark WEB UI就不可用。我是对的吗?

1 个答案:

答案 0 :(得分:5)

以下是您的问题的答案: -

  1. 在纱线模式下,您不需要Master或Worker或Executors。您只需将您的申请提交给纱线,其余纱线将自行管理。请参阅Deployment有关如何将Yarn用作群集管理器的部分。
  2. 如果您的Yarn群集已启动并正在运行并准备投放,那么您不需要任何其他守护程序。
  3. 取决于您要执行的操作,但可以使用SPARK_HOME/sbin/spark-config.shSPARK_HOME/sbin/start-history-server.sh等脚本。
  4. Spark Web UI仅在独立模式下可用。在纱线中,您可以在执行作业时使用驱动程序UI,或者在完成作业后需要打开历史记录服务器以分析作业。