我有一个带160万条记录的pyspark数据框。我对其进行了排序,然后希望通过保留排序顺序进行分组,以便我可以选择分组依据中排序列的最后一个值。但是,似乎在组期间不一定要保留排序顺序。我应该使用pyspark Window而不是排序和分组吗?
output_data = input_data.sort(F.col("id"))\
.sort(F.col("date").asc())\
.groupBy("id").agg(F.last("date").alias("date"))