应用错误收集

如何基于列对RDD进行分区？

时间：2019-03-25 20:37:29

标签： scala apache-spark apache-spark-sql

我正在基于列名实现RDD的重新分区。从目前为止我所看到的，这在RDD上是不可能的，相反，它需要转换为DF。有没有一种方法可以在RDD中完成而无需来回转换？

我尝试过的事情：

val newRdd = OldRdd.repartition(10) // Only thing possible in RDD

我想做什么：

val newRdd = OldRDD.repartition(10, col("name"))

0 个答案:

没有答案