考虑到纱线的Spark流

时间:2018-08-30 09:43:39

标签: apache-spark spark-streaming yarn

我想知道当在Yarn上运行时,公平调度程序如何与Spark(结构化)流一起工作。

我需要在纱线簇上运行多个火花流作业。为了弄清楚它的大小,我需要了解运行流作业(长时间运行的作业)时发生了什么。我应该静态地对每个流作业的群集进行切片,还是可以依靠Yarn在流作业之间动态分配资源。

我的猜测是,流作业始终运行,因此,如果每个作业都需要“大小”的执行者,则不会随需分配带有流作业执行器的容器,以平衡不同的流作业。容器”。

一个问题是,在一个小型批处理中,火花应用程序中的执行器发生了什么变化,而该处理程序没有处理一些数据。是空闲的,因此可以重新分配其资源,还是保持它的资源?

简而言之,(1)假设每个小批处理的处理方式有所不同,有时小批处理将为空,因为数据将不来,有时,获取的数据将不需要执行程序中的所有核心,或者分配给该流作业的一组执行者中的整个执行者,那么有什么火花呢?纱线可以注意到吗?并动态地重新分配资源? (2)如果每个流作业始终需要全部容量,那么它们之间的纱线平衡吗?或者应该事先对群集进行切片?

谢谢

0 个答案:

没有答案