spark如何将培训任务平均分配给执行者?

时间:2019-02-26 12:00:14

标签: apache-spark apache-spark-mllib

我建立了一个带有4个worker(每个都有4个核心)和1个master的spark独立集群。每个都有窗口10个操作系统。我向我们的Spark独立集群提交了Spark的ML示例:multiple_perceptron_classification.py。 但是它正在将所有任务交由一名工人的一名执行者执行。 enter image description here

multilayer_perceptron_classification.py代码是(代码使用Spark MLlib):

spark = SparkSession\
    .builder.appName("multilayer_perceptron_classification_example").getOrCreate()

data = spark.read.format("libsvm")\
    .load("C:/spark/spark-2.3.2-bin-hadoop2.7/data/mllib/sample_multiclass_classification_data1.txt")

splits = data.randomSplit([0.6, 0.4], 1234)
train = splits[0]   
test = splits[1] 

layers = [4, 500, 500, 500, 3]

trainer = MultilayerPerceptronClassifier(maxIter=100, layers=layers, blockSize=128, seed=1234)

model = trainer.fit(train)

result = model.transform(test)
predictionAndLabels = result.select("prediction", "label")
evaluator = MulticlassClassificationEvaluator(metricName="accuracy")
print("Test set accuracy = " + str(evaluator.evaluate(predictionAndLabels)))

spark.stop()

我不知道为什么它只运行一台计算机。我想知道训练算法最初是串行构造的还是错过了spark集群的某些配置。(我以为spark cluster做分布式训练,但不是)请帮帮我。先感谢您。

1 个答案:

答案 0 :(得分:0)

检查分区数(data.rdd.partitions.size),最有可能是1。分区中Spark中的并行化单位。 Spark使用的执行程序不会超过数据分区的数量。

要解决此问题,可以将sample_multiclass_classification_data1.txt中的数据拆分为多个文件,或者将其重新分区

num_partitions = 32
data = spark.read.format("libsvm")\
    .load("C:/spark/spark-2.3.2-bin-hadoop2.7/data/mllib/sample_multiclass_classification_data1.txt").repartition(num_partitions)

相关问题: Determining optimal number of Spark partitions based on workers, cores and DataFrame size