应用错误收集

如何在Kubernetes集群上的Spark执行者之间均匀分布分区？

时间：2019-04-12 16:35:53

标签： python apache-spark kubernetes pyspark

我目前正在为PySpark中的SGD并行实现开发原型。所有这些都工作得很好，但是我在工作人员之间分配分区方面存在问题。

在加载数据集（验证和训练）之后，我将其重新分区为2xNum_Executors分区，但是似乎所有分区都进入了2或3个执行器，而不是全部（Partition Distribution for 5 workers）。 >

使用spark-submit脚本将代码部署在Kubernetes集群上

我的问题如下： pyspark / Spark是否提供一种在工作人员之间平均分配分区的方法？

0 个答案:

没有答案