应用错误收集

排序，然后按数据框分组-分组后是否保留排序顺序？

时间：2019-05-16 11:40:34

标签： pyspark pyspark-sql

我有一个带160万条记录的pyspark数据框。我对其进行了排序，然后希望通过保留排序顺序进行分组，以便我可以选择分组依据中排序列的最后一个值。但是，似乎在组期间不一定要保留排序顺序。我应该使用pyspark Window而不是排序和分组吗？

output_data = input_data.sort(F.col("id"))\

                .sort(F.col("date").asc())\

                .groupBy("id").agg(F.last("date").alias("date"))

0 个答案:

没有答案