我有一个群集,其中有一个队列用于低优先级作业。这些工作可以在执行前等待几个小时,没关系。我唯一的问题是我的应用程序在timeout
命令下运行,以杀死任何可疑的长时间运行的作业。我最近添加了一个新工作,它占用了整个队列的容量并运行了几个小时。我想要的行为是,如果没有可以分配容量,则在一定时间后拒绝传入的作业。这样,他们可以放弃并稍后回来。我不想修改自己的超时阈值 - 它们的语义应该是作业运行的时间,而不是整个调度+作业执行持续多长时间。
CapacityScheduler
)以便宜的方式执行此操作??
PS:对apache-spark
标记的理由是,它会为这个问题提供更广泛的可见性,并有更多机会与回答者和未来的读者联系,寻找有关YARN-Spark的问题。< / p>