我有4个火花应用程序(从文本文件中查找wordcount),它使用4种不同语言(R,python,java,scala)编写
./wordcount.R
./wordcount.py
./wordcount.java
./wordcount.scala
spark在独立模式下工作...... 1.4工作节点 2.1每个工作节点的核心 每个节点3.1gb内存 4.core_max设置为1
./ CONF / spark-env.sh
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"
export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=1"
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_INSTANCES=4
我在终端
上使用pgm.sh文件提交了spark应用程序./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./wordcount.R &
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./wordcount.py &
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./project_2.jar &
./bin/spark-submit --master spark://-Aspire-E5-001:7077 ./project_2.jar
当每个进程单独执行时需要2秒。 当所有进程在终端上使用.sh文件执行时需要5秒到6秒
如何并行运行不同的spark应用程序? 如何将每个spark应用程序分配给单个核心?