Databricks中使用的集群管理器是什么?如何更改Databricks群集中执行程序的数量?

时间:2019-07-15 18:22:04

标签: apache-spark databricks azure-databricks

Databricks中使用的集群管理器是什么? 如何更改Databricks群集中执行程序的数量?

2 个答案:

答案 0 :(得分:2)

  

Databricks中使用的集群管理器是什么?

Azure Databricks通过提供零管理云平台构建Spark的功能,该平台包括:

  • 完全托管的Spark集群
  • 用于探索和可视化的交互式工作区
  • 为您喜欢的基于Spark的应用程序提供动力的平台

Databricks运行时建立在Apache Spark之上,并且是为Azure云而原生构建的。

使用无服务器选项,Azure Databricks完全抽象出了基础结构的复杂性以及对建立和配置数据基础结构的专业知识的需求。无服务器选项可帮助数据科学家团队快速迭代。

对于关心生产作业性能的数据工程师而言,Azure Databricks提供了一个Spark引擎,该引擎在I / O层和处理层(Databricks I / O)上进行了各种优化,因此速度更快,性能更高。

  

如何更改Databricks群集中执行程序的数量?

创建集群时,可以为集群提供固定数量的工作人员,也可以为集群提供最小和最大数量的工作人员

当您提供固定大小的群集时::Azure Databricks确保您的群集具有指定数量的工作线程。当您提供工人数量的范围时,Databricks将选择运行您的工作所需的合适工人数量。这称为自动缩放。

具有自动缩放功能:Azure Databricks动态重新分配工作人员以说明您的工作特征。您管道中的某些部分可能比其他部分对计算的要求更高,并且Databricks在工作的这些阶段会自动添加其他工作人员(并在不再需要时将其删除)。

自动缩放可轻松实现较高的群集利用率,因为您无需配置群集以匹配工作负载。这尤其适用于需求随时间变化的工作负载(例如一天中探索数据集),但也适用于配置需求未知的一次性较短的工作负载。因此,自动缩放具有两个优点:

  • 与恒定大小的资源不足群集相比,工作负载可以运行得更快。
  • 与静态大小的群集相比,自动扩展群集可以降低总体成本。

注意:根据集群的恒定大小和工作负载,自动扩展可以同时为您带来这一项或多项好处。当云提供商终止实例时,群集大小可能会低于选择的最小工作程序数。在这种情况下,Azure Databricks会连续重试以重新配置实例,以保持最少的工作人员数量。

集群自动缩放不适用于提交火花的作业。要了解有关自动缩放的更多信息,请参见Cluster autoscaling

希望这会有所帮助。

答案 1 :(得分:0)

回答问题:

<块引用>

Databricks 中使用的集群管理器是什么?

我试图挖掘这些信息,但我无法从官方文档中找到任何相关信息。

Databricks 似乎没有使用任何来自 Spark 提到的集群管理器here

根据this presentation,在第 23 页,它提到了 Databricks 集群管理器的 3 个部分

  • 实例管理器
  • 资源管理器
  • Spark 集群管理器

所以我猜 Databricks 使用自己的专有集群管理器。