标签: apache-spark
我正在运行一个最初有4个节点集群的spark作业。 群集是可自动扩展的,因此在高负载期间,节点数量最多可扩展到15个节点。 但是在启动期间,我们已经基于4个节点提供了分区数量。现在,当我的集群扩展到15个节点时,没有任何分区仍然相同(在启动期间分配)。 我的问题是,即使我没有更多的执行程序,我仍然完全使用我的集群和相同的分区。 或者内部处理火花。
当群集扩展时,我是否必须动态更改分区? 如果我必须这样做,我怎样才能在我的Spark工作中实现这一点?
任何输入都受到高度赞赏。
提前致谢!!