应用错误收集

Kubernetes Pod正常运行时间监控

时间：2017-05-23 10:13:45

标签： kubernetes

我的要求是将Kubernetes集群中某些pod的正常运行时间指标放在一起。

我正在考虑使用Kubernetes准备情况检查，如果有人做过类似事情，我很好奇吗？

基本上我正在尝试生成报告，说这个pod在过去一周/月内的正常运行时间为95％。

3 个答案:

答案 0 :(得分：1)

我建议查看Prometheus，它是监控Kubernetes集群内部服务，资源使用（主机级别以及Kubernetes API级别），当然还有您的应用程序的最强大方式。

注意：对于pod正常运行时间，您可以使用通用的up指标。

答案 1 :(得分：1)

最好是使用可以存储正常运行时间指标的时间序列数据库。您可以根据需要使用grafana，它是头等公民，具有k8s集群推出。

我们使用Wavefront来存储和可视化此正常运行时间指标以及大量其他指标。一旦有了可用的正常运行时间值，您就会看到容器容器停机期间突然下降，prometheus / wavefront / grafan全部可以让您应用时间序列函数来查看（在特定时间段内的总停机时间/总的容器停机时间）（一个月）以反映您的需求

答案 2 :(得分：0)

再多想一想，我们决定采用这种可能的方法：

部署定期执行BASH脚本的Docker容器（Cron）
BASH脚本使用Kubernetes API服务器来发现需要检查的窗格
BASH脚本生成一份报告，该报告将复制到主机上的已安装目录
此报告可以由其他应用程序接收并处理