在独立模式下提交多个火花应用程序

时间:2017-06-15 04:20:37

标签: python r scala apache-spark job-scheduling

我有4个火花应用程序(从文本文件中查找wordcount),它使用4种不同语言(R,python,java,scala)编写

./wordcount.R
./wordcount.py
./wordcount.java
./wordcount.scala

spark在独立模式下工作...... 1.4工作节点 2.1每个工作节点的核心 每个节点3.1gb内存 4.core_max设置为1

./ CONF / spark-env.sh

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"

export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=1"

export SPARK_WORKER_CORES=1

export SPARK_WORKER_MEMORY=1g

export SPARK_WORKER_INSTANCES=4

我在终端

上使用pgm.sh文件提交了spark应用程序
./bin/spark-submit  --master spark://-Aspire-E5-001:7077 ./wordcount.R  &

./bin/spark-submit  --master spark://-Aspire-E5-001:7077 ./wordcount.py &

./bin/spark-submit  --master spark://-Aspire-E5-001:7077 ./project_2.jar &

./bin/spark-submit  --master spark://-Aspire-E5-001:7077 ./project_2.jar 

当每个进程单独执行时需要2秒。 当所有进程在终端上使用.sh文件执行时需要5秒到6秒

如何并行运行不同的spark应用程序? 如何将每个spark应用程序分配给单个核心?

0 个答案:

没有答案