我已经设置了一个hadoop集群,其中有3台机器,一台主机和2台机器 在主人我已经安装了火花
SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly
添加了HADOOP_CONF_DIR = / usr / local / hadoop / etc / hadoop spark-env.sh
Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop ./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi --num-executors 3 --driver-memory 4g --executor-memory 2g --executor-cores 1 examples/target/scala-2.10/spark-examples-1.0.0-SNAPSHOT-hadoop2.4.0.jar
我检查了localhost:8088,我看到应用程序SparkPi正在运行..
只是这个或者我应该在2台奴隶机器中安装火花.. 我怎样才能启动所有机器?
那里有没有帮助文件..我觉得我错过了什么......
在spark standalone中,我们开始了主人和工人 ./bin/spark-class org.apache.spark.deploy.worker.Worker spark:// IP:PORT
我也想知道如何在这种情况下运行多个工作
我知道我们可以在conf / slave中配置奴隶,但任何人都可以共享一个例子
请帮助我被困住
答案 0 :(得分:1)
假设您正在使用Spark 1.1.0(如文档(http://spark.apache.org/docs/1.1.0/submitting-applications.html#master-urls)中所述),对于 master 参数,您可以使用值 yarn-cluster 或 yarn-client 。在这种情况下,您不需要使用 deploy-mode 参数。
您不必在所有YARN节点上安装Spark。这就是YARN的用途:通过Hadoop集群分发您的应用程序(在本例中为Spark)。