Question

我在具有以下spark-env配置的独立模式下运行spark -

DECLARE @text1 NVARCHAR(200)
DECLARE @text2 VARCHAR(200)

SET @text1 = 'aaaaaaaa'
SET @text2 = 'aaaaaaaa'

SELECT LEN(@text1), DATALENGTH(@text1)

SELECT LEN(@text2), DATALENGTH(@text2)

有了这个，我可以在我的spark UI 8080上看到4个工人。

现在有一件事是我的主URL（4040）上的执行者数量只有一个，我怎样才能将其增加为每个工作节点2个。

另外当我从spark运行一个小代码时它只使用一个执行器，我是否需要进行任何配置更改以确保使用多个worker上的多个执行程序。

感谢任何帮助。

Answer 1

将spark.master参数设置为local [k]，其中k是您要使用的线程数。您最好在spark-submit命令中编写这些参数，而不是使用export。

Answer 2

并行处理基于RDD的部分数量。如果你的Rdd有多个分区，那么它将被并行处理。

在代码中进行一些修改（repartion），它应该可以正常工作。

在Spark作业中使用多个执行程序和工作程序

2 个答案: