我们正在运行一个Airflow管道,在数据业务上执行多个火花作业。其中一项工作需要3-4个小时才能完成。即使火花作业成功,我们也会在Airflow日志中看到以下错误消息:
17/10/06 08:33:51 ERROR org.apache.spark.scheduler.LiveListenerBus: SparkListenerBus has already stopped! Dropping event SparkListenerExecutorMetricsUpdate(10,WrappedArray())
这会导致Airflow重试任务(实际上已成功)。
我在documentation中看到,即使操作已成功完成,也可能会返回DEADLINE_EXCEEDED错误。例如,服务器的成功响应可能已被延迟足够长的时间以使截止日期到期“。
所以我的问题是:是否有任何配置参数我们可以调整以避免这些超时和重试?
在Dataproc的作业输出中,我们会在完成之前看到一条日志消息:
{{1}}
这进一步让我们觉得火花工作已经完成,然后当它试图报告它完成时,没有人听。