所以有一天我们遇到了一个问题,其中我们的应用程序负载均衡器背后的一个实例失败了实例状态检查和系统检查。我们的ELB需要大约10秒(我们可以得到的最小值)才能检测到这一点,并将实例标记为“#34;不健康”,但是在这10秒内我们丢失了一些流量,因为ELB继续将流量路由到不健康的事实。有没有一个解决方案,我们可以避免任何停机时间或我太不现实?
答案 0 :(得分:0)
我确定这不是您想要听到的答案,但为了尽量减少系统上的流量损失(如果10s不可容忍),您需要实施自己的运行状况检查/负载平衡解决方案。我的组织有丢包也是不可接受的系统,这就是我们需要做的事情。
这个解决方案是双重的。
然而,在我们的测试中,我们发现虽然Route53的上游DNS服务器在删除DNS记录时荣获1秒TTL,但他们将“记录”(FQDN + IP组合)的“黑名单”再次重新启动到10分钟(我们得到分辨率从1m到10m的变化)。因此,您可以快速进行故障转移,但是您必须考虑到重新添加要记录的记录最多需要10分钟。