应用错误收集

我是Spark的新手。我正在尝试对Spark上的一组几何多边形执行一些操作。算法的运行时间与多边形的面积成正比。我想知道是否有一种方法可以让Spark处理节点中具有不同面积值的多边形的混合。

如果多边形数据未正确分区，并且一个节点最终得到一些大的多边形，而另一些节点变得较小，则较早的节点可能会成为瓶颈。整个练习都是为了避免这种情况。

我计划生成一个随机数，然后将其分配给每个多边形，并按该列划分数据集，希望将这些多边形随机分配给每个节点。但是，我不确定这种方法，也想知道是否可以做得比随机方法好，并向节点分配一组具有混合面积值的多边形。

我正在使用pyspark进行这项工作。