我目前正在为PySpark中的SGD并行实现开发原型。所有这些都工作得很好,但是我在工作人员之间分配分区方面存在问题。
在加载数据集(验证和训练)之后,我将其重新分区为2xNum_Executors分区,但是似乎所有分区都进入了2或3个执行器,而不是全部(Partition Distribution for 5 workers)。 >
使用spark-submit
脚本将代码部署在Kubernetes
集群上
我的问题如下: pyspark / Spark是否提供一种在工作人员之间平均分配分区的方法?