Question

我想根据日期列对数据框进行重新分区。就像，我在数据框中有90天的数据，我想按天对数据进行分区，以便每个分区都有每一天

我想要类似下面的语法。 df.repartition（“ day”，90）

哪里日期=>数据框中的列 90 =>我想要的分区数量

Answer 1

您可以通过

import spark.implicits._
df.repartition(df.select($"day").count().toInt, $"day")