Route 53故障转移路由的停机时间为6到8分钟

时间:2017-12-19 07:46:47

标签: amazon-web-services routing amazon-route53 failover

我在路由53故障转移的切换区域之间收到“502错误的网关错误”。

如果主要关闭,则在主要到次要之间切换需要2-3分钟。 同时,当在DR站点上IF主节点出现时,将DR的流量重定向到主节点还需要6到8分钟。如何将停机时间从6到8分钟完全降至0?

1 个答案:

答案 0 :(得分:1)

您需要检查ELB Health Check + Route53运行状况检查需要多长时间才能确定需要进行故障转移,最后一步是DNS记录的TTL。

例如,假设您有一个Web应用程序,托管在后面和ELB,并且您通过myapp.mydomain.com访问它。

ELB健康检查

虽然您应该检查的主要事项是R53运行状况检查(见下文),但ELB配置也很重要。

看看确定失败需要多长时间:

  • HealthCheck Interval - 健康检查之间的时间量
  • 不健康的门槛 - 多少次健康检查失败

确保这两个地区的ELB中的配置相同。

Route53健康检查

这是决定故障转移需要多长时间的主要因素。 您可能有2个针对myapp.mydomain.com的CNAME记录,每个记录都指向R53运行状况检查,并且每个运行状况检查都指向ELB在其各自的区域。 检查两次健康检查并确保:

  • 请求间隔 - R53会多长时间对您的ELB进行一次健康调查。
  • 故障阈值 - 端点必须通过或未通过状态更改的连续运行状况检查的数量。

确保健康状况检查的配置(主要和辅助)都相同。

一旦状态发生变化,它就会达到DNS记录TTL。

Route53 CNAME TTL

通过查看记录TTL,检查CNAMES在故障转移后指向记录的时间。例如,如果TTL为30,则需要大约。 Route53开始指向辅助区域30秒。

确保两个CNAME记录具有相同的TTL。

执行此操作后,您可以确定故障转移需要多长时间,例如: 您的健康检查正在查看端口80:/可用性,您的健康检查大约需要。 30秒,你的apache在主站点上死亡。

在30(示例)秒内,ELB将确定停止服务的实例并停止转发流量。 在相同的30(示例)秒内,监视相同健康检查(端口80:/)的R53运行状况检查也将确定主ELB不健康。

这是R53决定开始将DNS查询指向辅助ELB的地方。

如果您的TTL设置为30,则应在大约完成故障转移。 1分钟,+ / - 传播时间等等。

确保不要过于频繁地设置运行状况检查,具体取决于ELB背后有多少实例,这会导致从ELB和Route53为健康端点调用大量服务。