我们的Composer实例在一天当中中断了所有活动的工作人员。 3个节点中有2个节点的节点内存和CPU利用率消失了。
第一个错误是:
_mysql_exceptions.OperationalError: (2006, "Can't connect to MySQL server on 'airflow-sqlproxy-service.default.svc.cluster.local' (110))"
重新启动Composer实例(带有虚拟env变量)无济于事,并出现以下错误:
错误地杀死GKE工人也无济于事。 Stackdriver具有:
ERROR: (gcloud.container.clusters.describe) You do not currently have an active account selected.)
另一个错误似乎指向内部Google身份验证服务问题:
ERROR: (gcloud.container.clusters.get-credentials) There was a problem refreshing your current auth tokens: Unable to find the server at metadata.google.internal)
对于某些服务帐户,Composer存储桶似乎具有“存储旧式存储桶...”权限。身份验证后端正在进行一些更改,或者可能是突然而又奇怪的冻结的根本原因?
版本为composer-1.8.2和airflow-1.10.3。