如何基于列重新分配Spark?

时间:2019-02-28 19:16:15

标签: apache-spark pyspark

我想根据日期列对数据框进行重新分区。 就像,我在数据框中有90天的数据,我想按天对数据进行分区,以便每个分区都有每一天

我想要类似下面的语法。 df.repartition(“ day”,90)

哪里 日期=>数据框中的列 90 =>我想要的分区数量

1 个答案:

答案 0 :(得分:0)

您可以通过

import spark.implicits._
df.repartition(df.select($"day").count().toInt, $"day")