我有一个databricks群集设置,可自动扩展到12个节点。 我经常观察到数据块的扩展集群是从6到8,然后是8到11,然后是11到14个节点。
所以我的查询-
1.为什么要一次性拾取2-3个要添加的节点
2.为什么触发自动扩展,因为我看到群集上没有多少活动的活动或繁重的处理。 CPU使用率很低。
3.自动缩放时为什么会使其处于等待状态
4.为什么自动缩放需要最多8-10分钟的时间
谢谢
我正在尝试调查为什么不需要数据块时会自动缩放群集
答案 0 :(得分:0)
创建集群时,既可以为集群提供固定数量的工作程序,也可以为集群提供最小和最大数量的工作程序。
当您提供固定大小的群集时,Databricks将确保您的群集具有指定数量的工作线程。当您提供工人数量的范围时,Databricks将选择运行您的工作所需的合适工人数量。这称为自动缩放。
通过自动缩放,Databricks可以动态地重新分配工作人员以说明您的工作特征。您管道中的某些部分可能比其他部分对计算的要求更高,并且Databricks在工作的这些阶段会自动添加其他工作人员(并在不再需要时将其删除)。
自动缩放可轻松实现较高的群集利用率,因为您无需配置群集以匹配工作负载。这尤其适用于需求随时间变化的工作负载(例如一天中探索数据集),但也适用于配置需求未知的一次性较短的工作负载。因此,自动缩放具有两个优点:
Databricks提供了两种类型的群集节点自动缩放:标准和优化。
自动缩放的行为取决于优化的还是标准的,以及是否应用于交互式或作业集群。