我的sagemaker端点有一个/ ping,并且根据AWS Cloudwatch,它每隔5秒就会被ping:
10.32.0.1 - - [01/Feb/2018:08:08:35 +0000] "GET /ping HTTP/1.1" 200 1 "-" "AHC/2.0"
但是,我不知道如果ping失败会发生什么。我在哪里可以配置健康检查?
答案 0 :(得分:0)
Amazon SageMaker是一项托管服务,服务团队的职责是确保它可用。他们正在监控您的端点,并在需要时为您替换容器和实例。
您可以使用CloudWatch指标(https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)监控端点的性能,但它更倾向于正确选择实例类型和您想要拥有的实例数(您的成本)而不是(ping)可用性。
答案 1 :(得分:0)
如果在创建Endpoint期间ping始终失败,则我们会将容器视为不正常,并通过错误消息使Endpoint失败:
“ ClientError:生产变型[xxx]的主容器未通过ping运行状况检查。请检查CloudWatch日志中的此端点。”
如果在创建端点后ping持续失败(端点已启动并正在运行),我们将尽最大努力更换实例,同时保持端点正常运行。
您可以实施更复杂的运行状况检查。但是ping响应应在2秒钟内返回。
希望这会有所帮助!
-汉