在Spark作业中使用多个执行程序和工作程序

时间:2015-05-20 08:13:24

标签: apache-spark

我在具有以下spark-env配置的独立模式下运行spark -

DECLARE @text1 NVARCHAR(200)
DECLARE @text2 VARCHAR(200)

SET @text1 = 'aaaaaaaa'
SET @text2 = 'aaaaaaaa'

SELECT LEN(@text1), DATALENGTH(@text1)

SELECT LEN(@text2), DATALENGTH(@text2)

有了这个,我可以在我的spark UI 8080上看到4个工人。

现在有一件事是我的主URL(4040)上的执行者数量只有一个,我怎样才能将其增加为每个工作节点2个。

另外当我从spark运行一个小代码时它只使用一个执行器,我是否需要进行任何配置更改以确保使用多个worker上的多个执行程序。

感谢任何帮助。

2 个答案:

答案 0 :(得分:0)

将spark.master参数设置为local [k],其中k是您要使用的线程数。您最好在spark-submit命令中编写这些参数,而不是使用export。

答案 1 :(得分:0)

并行处理基于RDD的部分数量。如果你的Rdd有多个分区,那么它将被并行处理。

在代码中进行一些修改(repartion),它应该可以正常工作。