如何计算spark RDD / DataSet的分区数

时间:2017-10-27 12:51:10

标签: apache-spark optimization rdd partitioning

我想要一个当然启发式的公式,但可以用作决定以下的经验法则

  1. 将分区增加到X分区以获得最佳性能 并最好地利用集群资源。

  2. 将分区减少到X分区以获得最佳性能 并最好地利用集群资源。

  3. 不要对数据进行重新分区,默认分区足以实现最佳性能和群集资源的最佳利用。

  4. 我有这个信息

    1. 节点数
    2. 核心数
    3. 遗嘱执行人
    4. 每位执行人可用的内存
    5. 数据大小
    6. 总内存等
    7. 可能是经验法则,计算分区数的公式是运行时间以获得最佳性能。

      说如果我有rdd并且它的默认分区是" X"然后在使用上述信息应用公式后,我应该能够决定" y"通过增加,减少或不重新分配。

      当然,对此没有确切的公式,但绝对一个接近的方法也可以。

      由于

0 个答案:

没有答案