标签: performance apache-spark monitoring spark-structured-streaming
我正在从事运行机器学习算法的Spark结构化流媒体作业。该算法包括多个步骤。我注意到随着时间的推移,速度会大大降低(就执行时间而言),并且我想对这种情况发生在算法的哪个步骤有所了解。在结构化流媒体中应该如何处理?
onQueryProgress事件以Spark术语向我提供了基本信息(即处理的行数,花费的时间等),但这仅告诉我整个管道花费了多长时间。我希望能够深入研究管道的各个组成部分,以便找出瓶颈。有没有人做过类似的事情?
onQueryProgress