Question

我已经设置了一个hadoop集群，其中有3台机器，一台主机和2台机器在主人我已经安装了火花

SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly

添加了HADOOP_CONF_DIR = / usr / local / hadoop / etc / hadoop spark-env.sh

 Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop ./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi --num-executors 3 --driver-memory 4g --executor-memory 2g --executor-cores 1 examples/target/scala-2.10/spark-examples-1.0.0-SNAPSHOT-hadoop2.4.0.jar

我检查了localhost：8088，我看到应用程序SparkPi正在运行..

只是这个或者我应该在2台奴隶机器中安装火花.. 我怎样才能启动所有机器？

那里有没有帮助文件..我觉得我错过了什么......

在spark standalone中，我们开始了主人和工人 ./bin/spark-class org.apache.spark.deploy.worker.Worker spark：// IP：PORT

我也想知道如何在这种情况下运行多个工作

我知道我们可以在conf / slave中配置奴隶，但任何人都可以共享一个例子

请帮助我被困住

Answer 1

假设您正在使用Spark 1.1.0（如文档（http://spark.apache.org/docs/1.1.0/submitting-applications.html#master-urls）中所述），对于 master 参数，您可以使用值 yarn-cluster 或 yarn-client 。在这种情况下，您不需要使用 deploy-mode 参数。

您不必在所有YARN节点上安装Spark。这就是YARN的用途：通过Hadoop集群分发您的应用程序（在本例中为Spark）。

如何：火花纱簇

1 个答案: