合并时Spark分区大小

时间:2017-02-06 11:55:33

标签: java apache-spark

有没有办法让Spark在coalesce上制作相同大小的分区?

Stats[] stats = sparkSession
    .read()
    .parquet(salesPath)
    .coalesce(5) // may produce partitions of 120, 1, 1, 0, 0

1 个答案:

答案 0 :(得分:1)

coalesce无法使用相同大小的分区。 您应该使用repartition

查看https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#transformations