排序,然后按数据框分组-分组后是否保留排序顺序?

时间:2019-05-16 11:40:34

标签: pyspark pyspark-sql

我有一个带160万条记录的pyspark数据框。我对其进行了排序,然后希望通过保留排序顺序进行分组,以便我可以选择分组依据中排序列的最后一个值。但是,似乎在组期间不一定要保留排序顺序。我应该使用pyspark Window而不是排序和分组吗?

output_data = input_data.sort(F.col("id"))\

                .sort(F.col("date").asc())\

                .groupBy("id").agg(F.last("date").alias("date"))

0 个答案:

没有答案