在相同配置下执行Spark应用程序时,任务,阶段和作业的数量是否有所不同?

时间:2018-09-05 14:46:34

标签: apache-spark k-means apache-spark-ml

我目前正在集群中执行K-Means算法。

在相同配置(相同数量的执行程序,RAM,迭代,数据集)下的连续执行之间,任务,作业和阶段的数量可能相差很大。执行任务超过10个,达到标准偏差约500个任务。

这正常吗?在相同的配置下DAG是否应该相同?

我正在使用Scala运行K-Means的Spark实现。

1 个答案:

答案 0 :(得分:0)

那是完全正常的行为。

K均值收敛所需的迭代次数取决于质心的初始选择,并且该过程是完全(随机初始模式)或部分(K均值||初始模式)随机的。

由于每次迭代都会触发一个任务(并创建一个单独的DAG),因此阶段数和任务数与满足收敛标准之前执行的迭代数成比例。