我有一个Spark的结构化流应用程序,带有检查点,用于在镶木地板中写入输出并使用默认的spark.sql.shuffle.partitions = 200.我需要更改随机分区,但不使用新值。以下是重新启动应用程序后检查点偏移的内容:
{"batchWatermarkMs":1520054221000,"batchTimestampMs":1520054720003,"conf":{"spark.sql.shuffle.partitions":"200"}}
我是否需要在代码中设置分区数,而不是使用--conf?
进行设置答案 0 :(得分:3)
该号码从检查点恢复,只有在您删除检查点数据并使用“干净的石板”重新启动时才会更改。
这是有道理的,因为如果你有检查点数据,Spark需要知道恢复以前状态需要多少个分区目录。