如何从SparkContext连接Apache Spark和Yarn?

时间:2016-12-07 15:42:30

标签: hadoop apache-spark yarn

我使用Eclipse在Java中开发了一个Spark应用程序 到目前为止,我通过将主人的地址配置为本地[*]'来使用独立模式。
现在我想在Yarn集群上部署这个应用程序 我找到的唯一官方文档是http://spark.apache.org/docs/latest/running-on-yarn.html

与在mesos群集或独立(http://spark.apache.org/docs/latest/running-on-mesos.html)上部署的文档不同,SparkContext中没有任何URL可用于主要地址。
显然,我必须使用line命令在Yarn上部署spark。

你知道是否有办法在SparkContext中配置master的地址,比如独立模式和mesos模式?

1 个答案:

答案 0 :(得分:3)

实际上有一个网址。

  

确保HADOOP_CONF_DIRYARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录。这些配置用于写入HDFS并连接到YARN ResourceManager

您应至少拥有hdfs-site.xmlyarn-site.xmlcore-site.xml个文件,这些文件指定了您连接到的Hadoop群集的所有设置和网址。

yarn-site.xml中的某些属性包括yarn.nodemanager.hostnameyarn.nodemanager.address

由于地址的默认值为${yarn.nodemanager.hostname}:0,因此您可能只需要设置主机名。