标签: apache-spark autoscaling
我们有在AWS自动扩展工作程序实例上运行的Spark独立集群。在Spark中,有一种方法可以配置资源管理器以仅在现有资源上的所有资源都用完后才使用新的工作程序。
这是必需的,因为我们经常看到这样一个场景,其中有6个活动的工作程序,只有很少的核心在使用,但所有工作程序都在使用。这使得群集被利用。如果它将在一个工作线程上分配所有内核,然后仅在使用一个工作线程上的所有资源之后才转移到另一个内核,则缩减策略将终止空闲的工作线程,从而节省了$$$。