我有一个Spark作业可以在使用Yarn管理的集群上运行(启用动态分配)。我的工作需要通过点击一些公司内部REST API来处理数据(这不是可选的)。 API团队告诉我他们可以自动扩展到大量并发请求,但他们需要一些时间来扩展。所以他们要求我限制我的Spark工作生成的请求/秒的增长率。 p>
有没有简单的方法可以告诉Spark"提升"在预定义的时间段内均匀执行者的数量?
答案 0 :(得分:1)
From the Spark Docs,您可以降低spark.dynamicAllocation.schedulerBacklogTimeout
和spark.dynamicAllocation.sustainedSchedulerBacklogTimeout
请求新执行者的速度。不过,这感觉有点像黑客。