应用错误收集

如何计算spark RDD / DataSet的分区数

时间：2017-10-27 12:51:10

标签： apache-spark optimization rdd partitioning

我想要一个当然启发式的公式，但可以用作决定以下的经验法则

将分区增加到X分区以获得最佳性能并最好地利用集群资源。
将分区减少到X分区以获得最佳性能并最好地利用集群资源。
不要对数据进行重新分区，默认分区足以实现最佳性能和群集资源的最佳利用。

我有这个信息

节点数
核心数
遗嘱执行人
每位执行人可用的内存
数据大小
总内存等

可能是经验法则，计算分区数的公式是运行时间以获得最佳性能。

说如果我有rdd并且它的默认分区是＆＃34; X＆＃34;然后在使用上述信息应用公式后，我应该能够决定＆＃34; y＆＃34;通过增加，减少或不重新分配。

当然，对此没有确切的公式，但绝对一个接近的方法也可以。

由于

0 个答案:

没有答案