标签: performance apache-spark
我们注意到我们的Spark最近没有赶上数据,并且不时停滞不前。在过去几周内,数据量增加了几百%,但服务器上的负载似乎很小。
我们应该调查哪些可能的原因以及提高吞吐量的第一步是什么?
我们的日志显示总延迟时间在一个点开始增加:
之后它从未停止过,我们不得不重新部署Spark工作,之后Spark迅速赶上了滞后。这种行为可能是什么原因?