标签: apache-spark rdd partitioner
我正在基于密钥对RDD进行分组。
rdd.groupBy(_.key).partitioner => org.apache.spark.HashPartitioner@a
我在默认情况下看到Spark,将HashPartitioner与此RDD关联,这对我很好,因为我同意我们需要某种分区来将相同的数据带到一个执行器。但是,稍后在程序中我希望RDD忘记它的分区策略,因为我想将它与另一个遵循不同分区策略的RDD连接起来。我们如何从RDD中删除分区器?
HashPartitioner