由于没有故障转移的维护,导致PostgreSQL HA集群的Google CloudSQL停机

时间:2018-08-28 07:23:29

标签: google-cloud-sql

今天早晨,我们的PostgreSQL高可用性(HA)的Google CloudSQL集群的停机时间超过5分钟。这是Google要求您提供的维护期间。

Google清楚了他们为什么需要维护窗口(请参见here)。令我们震惊的是停机时间的长短,并且没有执行故障转移。

该文档明确指出,维护是在实例(而不是整个群集)上执行的。那么,为什么没有像记录here那样执行回退?他们说,这可能需要60秒。但是花了5分钟多一点。

然后再次;这是一项定期维护。如果您期望的话,则不必进行自动故障转移。

我们误解了文档,是对我们抱有不切实际的期望还是对应用程序进行了错误配置?

1 个答案:

答案 0 :(得分:0)

如您所参考的文档中所述,它仅适用于实例或区域故障的情况。换句话说,只有当实例失败(变得无响应)或MySQL / PostgreSQL实例所在的区域中存在导致无法访问该实例的问题时,Cloud SQL才会自动切换到从备用实例。

此外,在同一文档中指出主实例必须处于正常运行状态,这在requirements部分中已提到。