标签: scala apache-spark apache-spark-sql
我正在基于列名实现RDD的重新分区。从目前为止我所看到的,这在RDD上是不可能的,相反,它需要转换为DF。有没有一种方法可以在RDD中完成而无需来回转换?
我尝试过的事情:
val newRdd = OldRdd.repartition(10) // Only thing possible in RDD
我想做什么:
val newRdd = OldRDD.repartition(10, col("name"))