Spark提交并行作业

时间:2018-04-29 17:24:59

标签: scala apache-spark hadoop yarn hadoop2

(Apache Spark存在问题 我有一个包含10个节点的集群(1个主节点和9个从节点),每个节点有1048MB内存。

我从事机器学习,所以我想并行运行我的实现,但我不能让它工作 - 总有一个Worker来执行我提交的应用程序。

我尝试了一个WordCount的简单示例,我在其中对文件进行分区,但我总是得到相同的结果。

这是我的文件

spark-env.s h(在每个节点中):

HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
SPARK_YARN_QUEUE="default" 
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=9"
export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=9"
SPARK_WORKER_MEMORY=1g

我尝试过的例子:

val rdd = sc.textFile("path.txt" , 2 ).flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
rdd.saveAsTextFile(path)
//I tried 2 distribution hope see two worker execute

以下是我提交申请的配置:

./spark-submit --master spark://master:6066 --deploy-mode cluster --conf spark.yarn.jars=hdfs://master:9000/jars/*.jar --conf spark.default.parallelism=2 --class Accueil  hdfs://master:9000/user/word2P.jar hdfs://master:9000/user/twitter.txt  hdfs://master:9000/user/result

这是我执行时的Spark UI:

enter image description here

0 个答案:

没有答案