在YARN上运行Spark的步骤是什么
到目前为止我所做的。创建用户yarn并安装Spark和Hadoop。在本地进行火花工作。 我需要有关Hadoop集群的(客户端)配置文件的配置帮助。现在很长一段时间都无法弄清楚它们的放置位置,链接位置以及出现错误。
答案 0 :(得分:0)
我想这就是您要寻找的东西。
我想您知道Yarn提供了运行作业的资源。因此,您必须在代码中将母版定义为YARN。然后将数据上传到hdfs上以运行Spark Jobs。我附上了apache文档,您可以在其中找到指南。
答案 1 :(得分:0)
步骤1:使用一些在线参考正确配置YARN(yarn-site.xml),然后进行完整性检查,以运行YARN是否正确运行
yarn jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /tmp/abhijeet/hadoop.in /tmp/abhijeet/out/out.1
如果一切正常,那么您的工作顺利了。
第2步:参考一些在线内容安装Spark,并使用以下命令进行完整性检查
opt / spark / bin / spark-submit --class org.apache.spark.examples.SparkPi --master local [*] /opt/spark/examples/jars/spark-examples_2.11-2.1.1。罐子
如果运行良好,则表示火花已正确安装。
第3步:现在是时候让火花遍及纱线了
运行以下给定命令
/opt/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 2G --num-executors 2 /opt/spark/examples/jars/spark-examples_2.11-2.1.1.jar
如果这个程序工作正常,那么恭喜!
注意:上面给定的路径在我的系统中是本地的,使用的所有jar均随附Hadoop和Spark的默认软件包。