在发生灾难的情况下,当整个AWS区域发生故障并且所有客户都希望在灾难恢复场景中将工作负载移至下一个最近的区域时,AWS是否准备好了? 我想象每个区域中都有数百万台服务器在运行。 AWS是否准备在第二天在其他区域进行配置?他们准备好了吗?
答案 0 :(得分:2)
AWS global infrastructure在每个区域内使用Availability Zones的概念来划分资源,隔离风险并最终减小最终故障的爆炸半径。可用区是区域内的一组数据中心,其设计在风险方面彼此独立(即与电网的连接不同,冗余且隔离的网络基础结构,在地震,饮食等地理风险方面处于隔离状态)
某些服务旨在自动利用此冗余基础架构(Amazon S3,Amazon DynamoDB,ELB等),客户无需配置任何内容,该服务将处理区域级别的冗余和故障转移。其他一些服务在可用区级别上运行(Amazon EC2,EBS,RDS等)。对于这些服务,最佳实践是针对多个可用区架构和数据复制进行设计。
在极不可能的情况下,某个可用区域中无法提供服务,well architected architecture将透明地故障转移到另一个可用区域,而不会引起任何明显的客户影响。
回到您的问题,该体系结构旨在避免所有服务在区域范围内发生故障。自2006年我们启动AWS以来,这从未发生过。而且,是的,我们有很多容量。我建议您观看詹姆斯·汉密尔顿(James Hamilton)的主题演讲,以进一步了解https://www.youtube.com/watch?v=AyOAjFNPAbA