Spark Dataset上的typsafe sortBy / orderBy

时间:2019-02-04 22:49:38

标签: scala apache-spark

鉴于以下各项工作正常:

myDF.as[MyCaseClass].sort("process_utc_sec")

我该如何执行类似类型安全的方式?

myDF.as[MyCaseClass].sortBy(_.process_utc_sec)

欢呼

1 个答案:

答案 0 :(得分:1)

您可以将您的数据集转换为 RDD 并在此 RDD 上调用 sortBy。然后转换回数据集:

myDF.as[MyCaseClass].rdd.sortBy(_.process_utc.sec).toDS()

然而,sortWithinPartition 方法没有任何替代方法...