有没有办法让Spark在coalesce
上制作相同大小的分区?
Stats[] stats = sparkSession
.read()
.parquet(salesPath)
.coalesce(5) // may produce partitions of 120, 1, 1, 0, 0
答案 0 :(得分:1)
coalesce
无法使用相同大小的分区。
您应该使用repartition
。
查看https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#transformations