从多个列中创建一个ID,然后按一个组进行分组是个好主意吗?也许按一列(ID)将数据分组会更有效吗?
示例:
my_dataframe = my_dataframe \
.withColumn("my_key", F.concat(F.col("column1"),
F.col("column2"),
F.col("column3"))) \
.groupBy(F.col("my_key")) \
.agg(...)