Apache Spark断路器

时间:2018-01-29 10:02:12

标签: hadoop apache-spark yarn

在Hadoop YARN群集中使用Apache Spark 1.6.2。

某些(简单)查询会占用大量资源,我看到我们的开发人员针对1To文件运行SELECT * FROM DB!因此,它需要很长时间,并且"阻止"所有YARN资源片刻(并在几个小时后大部分时间崩溃......)。

我想知道是否可以限制Spark在YARN群集中运行所消耗的时间/资源:

  • 限制持续时间
  • 限制随机播放(缓存)磁盘空间
  • 限制每个查询(或每个用户)的CPU时间

(不确定"断路器"是一个好词,我是从弹性搜索中获取的)

1 个答案:

答案 0 :(得分:0)

这个问题非常广泛,但总的来说:

  • 使用调度程序队列确保在多用户环境中不同用户之间的最佳分配。适当的容量配置应足以获得良好的控制。
  • 使用抢占确保单个应用程序无法阻止单个队列(但如果考虑群集模式,请务必小心)。
  • 临时空间比较棘手,因为YARN并不认为磁盘是一种资源,但标准操作系统配额应该适用于此。