标签: apache-spark shuffle skew
如何改组RDD,以使结果RDD的所有分区具有相同的类标签分布?
我有一个RDD [Row],以便根据4个分区中的类标签(-1和+1)对行进行排序。因此,第一和第二分区包括属于第一类标签(-1)的记录,而第三和第四分区包括属于第二类标签(+1)的记录。 我想以一种低成本的方式对RDD进行改组,以便所有分区都具有25%的第一类标签和25%的第二类标签。