监视带有事件的Spark结构化流

时间:2018-08-16 08:51:51

标签: performance apache-spark monitoring spark-structured-streaming

我正在从事运行机器学习算法的Spark结构化流媒体作业。该算法包括多个步骤。我注意到随着时间的推移,速度会大大降低(就执行时间而言),并且我想对这种情况发生在算法的哪个步骤有所了解。在结构化流媒体中应该如何处理?

onQueryProgress事件以Spark术语向我提供了基本信息(即处理的行数,花费的时间等),但这仅告诉我整个管道花费了多长时间。我希望能够深入研究管道的各个组成部分,以便找出瓶颈。有没有人做过类似的事情?

0 个答案:

没有答案