如何向Sagemaker端点添加运行状况检查?

时间:2018-02-01 08:11:30

标签: amazon-web-services amazon-sagemaker

我的sagemaker端点有一个/ ping,并且根据AWS Cloudwatch,它每隔5秒就会被ping:

10.32.0.1 - - [01/Feb/2018:08:08:35 +0000] "GET /ping HTTP/1.1" 200 1 "-" "AHC/2.0"

但是,我不知道如果ping失败会发生什么。我在哪里可以配置健康检查?

2 个答案:

答案 0 :(得分:0)

Amazon SageMaker是一项托管服务,服务团队的职责是确保它可用。他们正在监控您的端点,并在需要时为您替换容器和实例。

您可以使用CloudWatch指标(https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html)监控端点的性能,但它更倾向于正确选择实例类型和您想要拥有的实例数(您的成本)而不是(ping)可用性。

答案 1 :(得分:0)

如果在创建Endpoint期间ping始终失败,则我们会将容器视为不正常,并通过错误消息使Endpoint失败:

“ ClientError:生产变型[xxx]的主容器未通过ping运行状况检查。请检查CloudWatch日志中的此端点。”

如果在创建端点后ping持续失败(端点已启动并正在运行),我们将尽最大努力更换实例,同时保持端点正常运行。

这是文档页面:https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-inference-code.html#your-algorithms-inference-algo-ping-requests

您可以实施更复杂的运行状况检查。但是ping响应应在2秒钟内返回。

希望这会有所帮助!

-汉