根据属性将数据分配给Spark集群节点

时间:2019-05-06 20:01:59

标签: apache-spark pyspark rdd partitioning

我是Spark的新手。我正在尝试对Spark上的一组几何多边形执行一些操作。算法的运行时间与多边形的面积成正比。我想知道是否有一种方法可以让Spark处理节点中具有不同面积值的多边形的混合。

如果多边形数据未正确分区,并且一个节点最终得到一些大的多边形,而另一些节点变得较小,则较早的节点可能会成为瓶颈。整个练习都是为了避免这种情况。

我计划生成一个随机数,然后将其分配给每个多边形,并按该列划分数据集,希望将这些多边形随机分配给每个节点。但是,我不确定这种方法,也想知道是否可以做得比随机方法好,并向节点分配一组具有混合面积值的多边形。

我正在使用pyspark进行这项工作。

0 个答案:

没有答案