我是Spark的新手。我正在尝试对Spark上的一组几何多边形执行一些操作。算法的运行时间与多边形的面积成正比。我想知道是否有一种方法可以让Spark处理节点中具有不同面积值的多边形的混合。
如果多边形数据未正确分区,并且一个节点最终得到一些大的多边形,而另一些节点变得较小,则较早的节点可能会成为瓶颈。整个练习都是为了避免这种情况。
我计划生成一个随机数,然后将其分配给每个多边形,并按该列划分数据集,希望将这些多边形随机分配给每个节点。但是,我不确定这种方法,也想知道是否可以做得比随机方法好,并向节点分配一组具有混合面积值的多边形。
我正在使用pyspark进行这项工作。