我已经有几个问题了,所以我想知道其他人是否也遇到了相同的问题:我有一个由 Cloud Composer (Google Cloud Platform的托管版本Apache)编排的管道空气流动)。我有一些在PySpark中编码的任务,需要在Cloud Dataproc集群上执行。
因此,我使用了 DataprocPySparkOperator 。对于大多数任务,它都可以正常工作。尽管如此,一旦任务的执行时间超过一小时,该任务就会(几乎)在Airflow UI上被系统标记为“失败”,尽管该任务在Dataproc上仍然可以正常运行。
我已经在Internet上进行了大量研究,并了解了Celery(Cloud Composer的强制执行程序)here的可见性超时。我还读到,由于Kubernetes客户端本身(例如here),Kubernetes Operator以前也存在类似的问题。
尽管如此,我从未找到有关DataprocPySparkOperator超时问题的帖子。我尝试过更改Composer的图像版本,并在Airflow配置替代中将可见性超时设置为10小时,从而减轻了结果。
编辑 似乎在Airflow配置中更改Celery的可见性超时(请参见screenshot )已解决了该问题,尽管我需要再等待几次以确认问题已得到有效解决。我仍然想了解为什么此问题仅出现在Dataproc中,以及此可见性超时如何影响Airflow的可靠性。