火花/纱线:在一段时间内缓慢增加执行器的数量

时间:2016-09-26 20:49:15

标签: apache-spark pyspark yarn

我有一个Spark作业可以在使用Yarn管理的集群上运行(启用动态分配)。我的工作需要通过点击一些公司内部REST API来处理数据(这不是可选的)。 API团队告诉我他们可以自动扩展到大量并发请求,但他们需要一些时间来扩展。所以他们要求我限制我的Spark工作生成的请求/秒的增长率。

有没有简单的方法可以告诉Spark"提升"在预定义的时间段内均匀执行者的数量?

1 个答案:

答案 0 :(得分:1)

From the Spark Docs,您可以降低spark.dynamicAllocation.schedulerBacklogTimeoutspark.dynamicAllocation.sustainedSchedulerBacklogTimeout请求新执行者的速度。不过,这感觉有点像黑客。