如何在Kubernetes集群上的Spark执行者之间均匀分布分区?

时间:2019-04-12 16:35:53

标签: python apache-spark kubernetes pyspark

我目前正在为PySpark中的SGD并行实现开发原型。所有这些都工作得很好,但是我在工作人员之间分配分区方面存在问题。

在加载数据集(验证和训练)之后,我将其重新分区为2xNum_Executors分区,但是似乎所有分区都进入了2或3个执行器,而不是全部(Partition Distribution for 5 workers)。 >

使用spark-submit脚本将代码部署在Kubernetes集群上

我的问题如下: pyspark / Spark是否提供一种在工作人员之间平均分配分区的方法?

0 个答案:

没有答案