使用纱线运行Spark的步骤

时间:2018-06-19 12:52:59

标签: apache-spark hadoop yarn

在YARN上运行Spark的步骤是什么

到目前为止我所做的。创建用户yarn并安装Spark和Hadoop。在本地进行火花工作。 我需要有关Hadoop集群的(客户端)配置文件的配置帮助。现在很长一段时间都无法弄清楚它们的放置位置,链接位置以及出现错误。

检查此 spark-submit unable to connect

2 个答案:

答案 0 :(得分:0)

我想这就是您要寻找的东西。

Running Spark on Yarn

我想您知道Yarn提供了运行作业的资源。因此,您必须在代码中将母版定义为YARN。然后将数据上传到hdfs上以运行Spark Jobs。我附上了apache文档,您可以在其中找到指南。

答案 1 :(得分:0)

步骤1:使用一些在线参考正确配置YARN(yarn-site.xml),然后进行完整性检查,以运行YARN是否正确运行

  

yarn jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /tmp/abhijeet/hadoop.in /tmp/abhijeet/out/out.1

如果一切正常,那么您的工作顺利了。

第2步:参考一些在线内容安装Spark,并使用以下命令进行完整性检查

  

opt / spark / bin / spark-submit --class org.apache.spark.examples.SparkPi --master local [*] /opt/spark/examples/jars/spark-examples_2.11-2.1.1。罐子

如果运行良好,则表示火花已正确安装。

第3步:现在是时候让火花遍及纱线了

运行以下给定命令

/opt/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 2G --num-executors 2 /opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar

如果这个程序工作正常,那么恭喜!

注意:上面给定的路径在我的系统中是本地的,使用的所有jar均随附Hadoop和Spark的默认软件包。