performance - 监视带有事件的Spark结构化流

我正在从事运行机器学习算法的Spark结构化流媒体作业。该算法包括多个步骤。我注意到随着时间的推移，速度会大大降低（就执行时间而言），并且我想对这种情况发生在算法的哪个步骤有所了解。在结构化流媒体中应该如何处理？

onQueryProgress事件以Spark术语向我提供了基本信息（即处理的行数，花费的时间等），但这仅告诉我整个管道花费了多长时间。我希望能够深入研究管道的各个组成部分，以便找出瓶颈。有没有人做过类似的事情？