检查点后未使用新的spark.sql.shuffle.partitions值

时间:2018-03-03 05:40:16

标签: apache-spark spark-structured-streaming

我有一个Spark的结构化流应用程序,带有检查点,用于在镶木地板中写入输出并使用默认的spark.sql.shuffle.partitions = 200.我需要更改随机分区,但不使用新值。以下是重新启动应用程序后检查点偏移的内容:

{"batchWatermarkMs":1520054221000,"batchTimestampMs":1520054720003,"conf":{"spark.sql.shuffle.partitions":"200"}}

我是否需要在代码中设置分区数,而不是使用--conf?

进行设置

1 个答案:

答案 0 :(得分:3)

该号码从检查点恢复,只有在您删除检查点数据并使用“干净的石板”重新启动时才会更改。

这是有道理的,因为如果你有检查点数据,Spark需要知道恢复以前状态需要多少个分区目录。