标签: apache-spark pyspark
我想根据日期列对数据框进行重新分区。 就像,我在数据框中有90天的数据,我想按天对数据进行分区,以便每个分区都有每一天
我想要类似下面的语法。 df.repartition(“ day”,90)
哪里 日期=>数据框中的列 90 =>我想要的分区数量
答案 0 :(得分:0)
您可以通过
import spark.implicits._ df.repartition(df.select($"day").count().toInt, $"day")