数据砖如何自动扩展群集

时间:2019-07-22 12:22:00

标签: pyspark

我有一个databricks群集设置,可自动扩展到12个节点。 我经常观察到数据块的扩展集群是从6到8,然后是8到11,然后是11到14个节点。

所以我的查询- 1.为什么要一次性拾取2-3个要添加的节点 2.为什么触发自动扩展,因为我看到群集上没有多少活动的活动或繁重的处理。 CPU使用率很低。 3.自动缩放时为什么会使其处于等待状态
4.为什么自动缩放需要最多8-10分钟的时间

谢谢

我正在尝试调查为什么不需要数据块时会自动缩放群集

1 个答案:

答案 0 :(得分:0)

创建集群时,既可以为集群提供固定数量的工作程序,也可以为集群提供最小和最大数量的工作程序。

当您提供固定大小的群集时,Databricks将确保您的群集具有指定数量的工作线程。当您提供工人数量的范围时,Databricks将选择运行您的工作所需的合适工人数量。这称为自动缩放

通过自动缩放,Databricks可以动态地重新分配工作人员以说明您的工作特征。您管道中的某些部分可能比其他部分对计算的要求更高,并且Databricks在工作的这些阶段会自动添加其他工作人员(并在不再需要时将其删除)。

自动缩放可轻松实现较高的群集利用率,因为您无需配置群集以匹配工作负载。这尤其适用于需求随时间变化的工作负载(例如一天中探索数据集),但也适用于配置需求未知的一次性较短的工作负载。因此,自动缩放具有两个优点:

  • 与固定大小的文件相比,工作负载可以运行得更快 配置不足的集群。
  • 与按比例分配的集群相比,自动伸缩集群可以降低总体成本 静态大小的群集。

Databricks提供了两种类型的群集节点自动缩放:标准优化


自动缩放的行为

自动缩放的行为取决于优化的还是标准的,以及是否应用于交互式或作业集群。

已优化

  1. 从最小到最大按两步扩展。
  2. 即使集群不空闲,也可以通过查看随机播放来缩小规模 文件状态。
  3. 根据当前节点的百分比进行缩小。
  4. 在作业群集上,如果群集未充分利用,则按比例缩小 最后40秒。
  5. 在交互式群集上,如果群集使用不足,则按比例缩小 在过去的150秒内。

标准

  1. 首先添加4个节点。此后,按比例扩大,但是 可以采取很多步骤来达到最高水平。
  2. 仅在群集完全空闲且已处于群集状态时才进行缩减 最近10分钟未充分利用。
  3. 从1个节点开始按比例缩小。
相关问题