检测到成功的数据流作业为僵尸后,气流作业失败。
我运行一个每小时的Dataflow作业,该作业由外部Airflow实例使用python DataflowTemplateOperator触发。每周几次,Dataflow完全无法响应状态ping。当我实时捕获错误并尝试在GCP UI中查看Dataflow作业的状态时,尽管我已经建立了网络连接并能够查看GCP网站上的其他页面,但该页面仍无法加载。几分钟后,一切恢复正常。这似乎是在工作快要结束时或工人关闭时发生的。数据流作业不会失败,也不会报告任何错误。 Airflow认为他们失败了,因为当Dataflow变得不响应时,Airflow认为这些工作是僵尸。我需要一个快速的解决方案,只是增加了重试次数,但我想了解问题并找到更好的解决方案。