Spark on Yarn:如何防止安排多个火花作业

时间:2016-04-13 06:59:43

标签: apache-spark yarn

随着纱线上的火花 - 我没有看到一种方法来防止安排并发工作。我有我的架构设置,用于进行纯批处理。

我需要这个,原因如下:

  • 资源限制
  • 用于Spark的UserCache非常快速增长。运行多个作业会导致缓存空间爆炸。

理想情况下,我很想知道是否有一个配置可以确保在纱线上随时只能运行一个作业。

2 个答案:

答案 0 :(得分:1)

您可以运行创建一个只能托管一个应用程序主服务器并在该队列上运行所有Spark作业的队列。因此,如果Spark作业正在运行,则另一个将被接受,但在正在运行的执行完成之前,它们将不会被调度和运行...

答案 1 :(得分:0)

终于找到了解决方案 - 在纱线文件中:yarn.scheduler.capacity.max-applications必须设置为1而不是10000.