如何基于列对RDD进行分区?

时间:2019-03-25 20:37:29

标签: scala apache-spark apache-spark-sql

我正在基于列名实现RDD的重新分区。从目前为止我所看到的,这在RDD上是不可能的,相反,它需要转换为DF。有没有一种方法可以在RDD中完成而无需来回转换?

我尝试过的事情:

val newRdd = OldRdd.repartition(10) // Only thing possible in RDD

我想做什么:

val newRdd = OldRDD.repartition(10, col("name"))

0 个答案:

没有答案