Question

在YARN上运行Spark的步骤是什么

到目前为止我所做的。创建用户yarn并安装Spark和Hadoop。在本地进行火花工作。我需要有关Hadoop集群的（客户端）配置文件的配置帮助。现在很长一段时间都无法弄清楚它们的放置位置，链接位置以及出现错误。

检查此 spark-submit unable to connect

Answer 1

我想这就是您要寻找的东西。

Running Spark on Yarn

我想您知道Yarn提供了运行作业的资源。因此，您必须在代码中将母版定义为YARN。然后将数据上传到hdfs上以运行Spark Jobs。我附上了apache文档，您可以在其中找到指南。

Answer 2

步骤1：使用一些在线参考正确配置YARN（yarn-site.xml），然后进行完整性检查，以运行YARN是否正确运行

yarn jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /tmp/abhijeet/hadoop.in /tmp/abhijeet/out/out.1

如果一切正常，那么您的工作顺利了。

第2步：参考一些在线内容安装Spark，并使用以下命令进行完整性检查

opt / spark / bin / spark-submit --class org.apache.spark.examples.SparkPi --master local [*] /opt/spark/examples/jars/spark-examples_2.11-2.1.1。罐子

如果运行良好，则表示火花已正确安装。

第3步：现在是时候让火花遍及纱线了

运行以下给定命令

/opt/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 2G --num-executors 2 /opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar

如果这个程序工作正常，那么恭喜！

注意：上面给定的路径在我的系统中是本地的，使用的所有jar均随附Hadoop和Spark的默认软件包。

使用纱线运行Spark的步骤

2 个答案: