我想知道一个系统,通过该系统,我可以跟踪多个帐户,大约130多个帐户,每个帐户包含大约200多台服务器。
我想知道跟踪机器故障,服务故障等的方法
我还想知道如果底层硬件出现故障或机器在现场终止时我可以自动打开机器的方法
我对所有解决方案都持开放态度,包括厨师/地形自动化,治疗脚本等。
你们会为我节省很多不眠之夜:)
提前致谢!!
答案 0 :(得分:2)
这纯粹是我对实施你的问题陈述的看法。
1)嗯..为了管理和跟踪多个帐户,您可以使用 AWS Organization 。这将帮助您使用一个root帐户集中管理所有其他130多个帐户。您也可以启用合并结算。
2)至于跟踪故障......您可能需要根据您的要求进行自定义。 例如:您可以在docker containers or ecs
之上构建微服务,其唯一目的是跟踪失败,生成报告并每天推送到s3
。您可以使用S3中的此报告中的AWS quicksight
进一步创建信息中心。
可以有另一个微服务来纠正失败。这取决于您希望实现的详尽程度和细粒度。
3)对于终止点实例的产生实例,可以通过简单的自动缩放配置来实现。以下是您可能希望了解的一些文章,它们将为您提供一些想法:
答案 1 :(得分:0)
AWS Organisations对于管理很有用。您还可以查看多个帐户billing strategy和security strategy。与您的IAM用户共享服务帐户将使事情变得简单。
关于跟踪失败,您可以使用CloudWatch设置automatic instance recovery。 CloudWatch还可以定义警报,这些警报将在您意外发生的情况下通过电子邮件发送给您,尽管单独设置它们可能会很耗时。以您的规模,我认为您应该研究第三方工具。