Spark with Yarn:提供与火花资源相关的参数?

时间:2015-04-10 13:46:16

标签: apache-spark yarn

我正在阅读关于Spark& amp;资源管理,即我的纱线。

我认为我理解了基本概念以及Yarn如何将Spark Master / Workers封装在容器中。

还是提供资源参数,例如--driver-memory--executor-memory--number-executors还有什么意义吗?不应该是Yarn-application-master(spark-master)找出需求并相应地请求新资源? 或者通过提供这些参数干扰资源协商过程是明智的吗?

1 个答案:

答案 0 :(得分:1)

Spark需要协商来自YARN的资源。提供资源参数告诉Spark要从YARN请求多少资源。

对于YARN上的遗嘱执行人:

  1. Spark应用程序使用固定数量的执行程序(默认值= 2)。
  2. spark-submit,spark-shell等的--num-executors标志按预期设置执行程序的数量。
  3. 关于YARN的内存管理:

    1. 使用--executor-memory设置每个执行程序使用的内存。
    2. 设置--executor-cores告诉Spark要从YARN索取多少个核心。
    3. 使用--driver-memory设置驱动程序进程的内存量。
    4. 一些常见的Spark-on-YARN说明:

      1. 如果您的YARN群集将应用程序安排到队列中,请使用--queue选项。
      2. Spark针对内存计算进行了优化,因此请向YARN询问较少数量的内存繁重执行程序(具有多个内核和更多内存)。如果您在YARN中设置了内存上限,请务必小心。
      3. Spark on YARN Documentation有更多详情。