Spark-按多列分组VS按同一列创建的ID分组

时间:2020-08-31 07:24:48

标签: apache-spark pyspark

从多个列中创建一个ID,然后按一个组进行分组是个好主意吗?也许按一列(ID)将数据分组会更有效吗?

示例:

my_dataframe = my_dataframe \
  .withColumn("my_key", F.concat(F.col("column1"),
                                 F.col("column2"),
                                 F.col("column3"))) \
  .groupBy(F.col("my_key")) \
  .agg(...)

0 个答案:

没有答案