我想要一个当然启发式的公式,但可以用作决定以下的经验法则
将分区增加到X分区以获得最佳性能 并最好地利用集群资源。
将分区减少到X分区以获得最佳性能 并最好地利用集群资源。
不要对数据进行重新分区,默认分区足以实现最佳性能和群集资源的最佳利用。
我有这个信息
可能是经验法则,计算分区数的公式是运行时间以获得最佳性能。
说如果我有rdd并且它的默认分区是" X"然后在使用上述信息应用公式后,我应该能够决定" y"通过增加,减少或不重新分配。
当然,对此没有确切的公式,但绝对一个接近的方法也可以。
由于